지난 블로그에서는 LLM(대형 언어 모델)이 어떤 과정으로 만들어지는지에 대해 자세하게 알아보았습니다.
한마디로 LLM(대규모 언어 모델)이라고 해도, 현재는 많은 LLM이 등장하고 있습니다. Chat GPT로 대표되는 GPT-3.5(또는 GPT-4o)를 비롯해 앞으로도 LLM 개발 경쟁이 가열되는 것으로 예상이 됩니다.
그래서 오늘 블로그 포스팅에서는 2024년 시점에서 대표적인 LLM을 6개ㄹ 엄선해 소개하려고 합니다. 아래에 소개하는 5가지 LLM만 파악해 둔다면 현재 대략적인 LLM의 종류에 대해 이해할 수 있을 것입니다.
1. GPT-4o (Open AI)
우선, LLM 상용화의 시초를 열었다라고도 할 수 있는 GPT-4o를 먼저 소개해 드리겠습니다. 현재 가장 많이 이용되고 있는 LLM은 Chat GPT에 탑재되어 있는 'GPT 시리즈'라고 볼 수 있습니다.
그중에서도 최신 모델인 'GPT-4o'가 성능적으로는 뛰어나다고 할 수 있습니다. GPT-4o는 텍스트, 이미지, 음성 등 다양한 미디어를 이해하고 처리하는 능력을 가진 멀티 모달 모델입니다. 이전 모델인 'GPT-4 Turbo'보다 3배 이상의 속도로 동작하여 계산 효율이 크게 개선되었습니다.
텍스트 생성 능력 자체도 비약적으로 향상되어 이전 모델에서는 한국어를 비롯한 언어 생성 능력에 약간의 불안감이 있었지만 GPT-4o에서는 위화감을 거의 느끼지 못할 정도입니다.
게다가 음성 입력이나 Mac 앱에도 대응했기 때문에 앞으로 LLM 시장에서 가장 선두주자를 달리고 있다고 말할 수 있습니다.
2. LaMDA (Google)
Google의 LaMDA(람다)는 Language Model for Dialogue Applications의 약자로 대화형 대형 언어 모델(LLM) 입니다. 가장 큰 특징은 특정 주제나 질문에 국한되지 않고 폭넓은 주제에 대해 자유롭게 대화할 수 있다는 점에 있습니다.
즉, 사용자가 어떤 질문을 하든 LaMDA는 그에 대응하는 적절한 답변을 생성하는 능력을 가지고 있습니다.
LaMDA에도 트랜스포머 아키텍처가 채택되어 있어 글의 연관성을 깊이 이해하고 다음에 올 단어를 예측할 수 있습니다.
다른 LLM들과의 큰 차이점은 LaMDA가 대화형 모델로 특화되어 있다는 점입니다. 따라서 사용자와의 자연스러운 대화를 실현하고 새로운 카테고리의 유용한 애플리케이션 개발이 기대되고 있습니다.
3. BERT (Google)
구글이 개발한 BERT( Bidirectional Encoder Representations from Transformers)는 자연어 처리(NLP) 분야에서 혁명을 일으킨 인공신경망을 사용하는 대형 언어 모델입니다.
대량의 무라벨 텍스트 데이터를 사용하여 사전 학습되었으며, 그 후 특정 NLP 작업을 위해 미세 조정되었습니다.
BERT의 가장 큰 특징은 문맥 표현 학습에 있습니다. 기존 모델은 일방향 학습이 주류였지만 BERT는 쌍방향 학습이 가능했고, 이를 통해 문맥 이해가 현격히 향상되었습니다.
또한 BERT는 많은 NLP 벤치마크에서 최고 수준의 결과를 달성하였으며, 텍스트 분류, 고유 표현 인식, 질문 응답 등 많은 응용 작업에서 널리 채택되고 있습니다.
우리가 이미 쓰고 있는 많은 Google 서비스, 예를 들면 Google Search나 Google Translate, Gmail 등에서도 이미 BERT의 기술이 이용되고 있어 서비스의 성능 향상을 돕고 있다고 생각하시면 됩니다.
4. PaLM (Google)
구글의 PaLM은 다국어 지원과 다양한 작업 처리 능력을 겸비한 대형 언어 모델입니다. 2022년 4월에 발표되었고, 업그레이드된 버전인 'PaLM2'는 2023년 5월에 등장했습니다.
한국어를 포함한 100개 이상의 언어로 트레이닝되고 있으며 로직, 수학, 추론 등의 고도의 작업을 처리할 수 있습니다. 또, Python에서 PHP까지 다양한 프로그래밍 언어로 코드 생성도 가능합니다.
이외에도 언어 번역, 텍스트 코드 생성, 복잡한 문장 요약, 질문 응답 등 일반적인 LLM에 요구되는 대부분의 일을 할 수 있습니다.
이미 구글 검색 엔진에도 내장되어 있어 사용자가 검색 쿼리에 대해 보다 정확하고 관련성이 높은 결과를 얻을 수 있도록 돕고 있습니다.
5. LLaMA (Meta)
Meta (이전 Facebook) 사가 개발한 LLaMA(라마)는, 2023년 2월에 발표된 대형 언어 모델입니다. LLaMA는 15조 토큰의 데이터로 훈련되었으며, 그 결과 매우 높은 정확도와 다양한 응용이 가능합니다.
최신 모델인 'LlaMA3'는 특히 추론 속도가 뛰어나 엔비디아 H200 GPU를 사용해 초당 3000토큰, 그록 클라우드에서는 800토큰의 생성 속도를 구현하고 있습니다. 이를 통해 실시간 응답 및 대량의 데이터 처리가 필요한 시스템에도 대응할 수 있습니다.
HellaSWAG, MMLU, Human Eval 같이 각종 벤치마크 테스트에서도 뛰어난 점수와 함께 높은 평가를 받고 있습니다.
GPT 시리즈보다 우리에게 덜 익숙하고 인상에 크게 남지는 않았지만, Meta 사는 메타버스의 구축을 위해서 자사 LLM을 개발을 계속해서 할 계획이기 때문에, 향후도 LLaMA의 성능 향상에는 기대해 보아도 좋을 것입니다.
6. NVIDIA NeMo (NVIDIA)
NVIDIA NeMo는 AI 개발을 돕는 프레임워크로 대형 언어 모델 생성부터 운영까지를 지원합니다. 엄밀하게는 LLM은 아니지만, LLM을 개발하는데 있어서 빼놓을 수 없는 프레임워크 중 하나입니다.
특정 비즈니스 요구에 맞춘 커스터마이즈도 가능하고, 텍스트나 비주얼 컨텐츠의 생성 등, 다방면에 걸치는 용도로 이용할 수 있습니다.
NVIDIA NeMo는 GitHub에서 오픈 소스로 제공되어 있기 때문에, 관심이 있으시다면 직접 한번 써보시는 것도 추천드립니다.
'인공지능 (AI)' 카테고리의 다른 글
CNN(합성곱 신경망)의 계층 구조 (0) | 2024.12.26 |
---|---|
LLM을 운영하기 위해 가장 좋은 IT 장비(GPU, 서버, PC) 추천 (2) | 2024.12.26 |
LLM(대형 언어 모델)을 만드는 프로세스, 과정 (10) | 2024.12.18 |
LLM(대형 언어 모델)의 개념과 차이 (생성 AI, 머신러닝, NLP) (2) | 2024.12.17 |
뇌와 인공신경망(뉴럴 네트워크) 개념 차이, 발전과정 (0) | 2024.12.17 |