지난 블로그 포스팅에서는 생성 AI 혹은 LLM의 성능을 평가하기 위해 실제로 업계에서는 어떤 제품을 사용하고 있는지에 대해서 알아보았습니다.
생성 AI/LLM 성능 평가 지표 (벤치마크) 종류
지난 블로그 포스팅에서는 생성 AI 또는 LLM의 성능을 평가하기 위해서 어떤 평가 지표 (벤치마크) 방법들이 있는지에 대해서 알아보았습니다. 생성 AI/LLM 성능 평가 지표 (벤치마크) 방법지금까
hope2solveproblems.com
이번 블로그 포스팅에서는 벤치마크가 실제로 어떻게 활용되고 있는지, 그리고 예상되는 문제점이 무엇인지에 대해 알아보도록 하겠습니다.
벤치마크의 활용
도메인(특정 분야)에 특화된 LLM의 성능을 평가하기 위해서는 해당 도메인에 적용할 수 있는지에 대한 판단이 필수적입니다.
이런 경우 벤치마크를 이용함으로써 일반적인 LLM의 능력 평가와 더불어 도메인의 요구에 대한 대응력이나 업무요건에서의 퍼포먼스 등 종합적으로 평가할 수 있습니다.
예를 들어 지난 블로그 포스에서 소개한 SUPER-NATURAL INSTRUCTIONS에서는 33개의 도메인을 커버하고 있어 비즈니스 이용을 위해 필요한 많은 요건을 충족하는지 파악하는 데 도움이 됩니다.
그렇다고 해도 도메인별 작업 수에는 큰 편차가 있고, 모든 도메인이 포함되어 있는 것은 아니기 때문에 개선의 여지가 있다고 생각됩니다.
실제로 활용할 때는 벤치마크가 어떤 도메인의 데이터셋을 이용해서 평가하고 있는지 문서로 확인하는 과정이 필요합니다.
벤치마크의 문제점과 한계
1. 간소화된 테스트나 다면 평가 부족
벤치마크는 LLM의 능력을 측정하는 방법으로 유효하지만 사용법에 따라서는 테스트가 간략화되어 버리는 경우도 있습니다.
예를 들어, 견고성 평가 벤치마크만을 이용한 경우 과도한 할루시네이션(AI의 결괏값이 올바르지 않거나 오해를 불러일으키는 것)이나 차별적 발언 등 다른 관점에서 문제 발생 위험이 남아 있습니다.
또, 단일 지표(예: Accuracy)나 소수의 지표에 의존하고 있는 벤치마크도 많아, 임의의 지표만으로 판단해 LLM의 성능이 과대평가되어 버릴 위험도 있습니다.
벤치마크를 적용하는 것으로 끝나지 않고 벤치마크의 평가 관점이나 평가점수 지표에 대해 문서로 확인하는 것이 중요합니다. 평가 관점의 부족이나 지표의 편중이 우려될 때에는 복수의 벤치마크를 조합하는 등 연구가 필요하게 될 것입니다.
2. 데이터 세트 의존과 과학습 위험
많은 벤치마크는 기존 데이터 세트를 이용하여 평가하고 있습니다. 이는 서로 다른 벤치마크 간에 평가 태스크 중복의 발생 위험이 있으며 범용성의 과대평가로 이어집니다.
또한 접근 가능한 기존 데이터 세트는 악의적인 정보나 우발적인 오정보로 인한 오염 가능성이 있어 LLM의 성능 평가를 잘못된 방향으로 이끌 위험을 증가시킵니다.
게다가 고정된 데이터 세트로 평가(정적 평가) 하면서 모델을 개선하기 때문에 과학습으로 인한 범화 성능 저하로 이어질 우려도 나옵니다.
상기 문제에 대처하기 위해 DyVal이라는 동적 평가를 가능하게 하는 벤치마크가 제안되었습니다. 설정한 파라미터에 따라 레벨별 평가용 샘플을 자동 생성하는 새로운 프로토콜입니다.
이를 통해 LLM의 동적 성능 평가가 현실적으로 이루어져 과학습 위험을 줄일 수 있을 것으로 기대됩니다. DyVal은 한 예이지만 LLM의 과학습을 막는 것에 대한 고려도 매우 중요합니다.
3. 한국어 전용 벤치마크의 지연
현재의 LLM은 사전 학습용 데이터 세트의 대부분은 영어입니다. 메타가 공개한 Llama2 사전학습용 데이터셋의 언어 비율은 영어가 89.70%에 비해 이에 이은 독일어에서도 불과 0.17%, 한국어는 그보다도 더 낮은 학습량으로 그 차이가 압도적입니다.
그 때문에, 영어 이외의 언어에 있어서의 LLM의 성능은 낮다는 지적이 있습니다.
한국 내에서의 비즈니스 이용을 목표로 하는 경우, 한국어의 자연스러운 언어 생성 능력이나 이해 능력을 정확하게 평가할 수 있는 벤치마크가 절대적으로 필요합니다.
최근에 제시되고 있는 평가 방법에서는 다국어 대응도 검토되어 한국어에서도 성능 향상을 볼 수 있었습니다.
벤치마크 사용 시에는 영어와 한국어 간의 평가 정확도의 괴리를 줄이기 위해 한국어에 대한 대응 상황도 함께 확인하는 것이 좋습니다.
LLM의 발전에 수반해, 다양한 평가 지표의 응용이나 벤치마크가 제안되어 왔습니다. LLM의 성능을 태스크나 언어, 도메인별로 평가할 수 있다는 점에서 벤치마크는 효율적인 평가 방법이라고 할 수 있습니다.
그러나 모든 벤치마크가 LLM의 평가 관점을 망라하고 있는 것은 아닙니다. 게다가 데이터 세트 의존의 과학습이나, 한국어 벤치마크의 지연이라고 하는 과제가 남아 있습니다.
이들은 세밀한 기업·업무 레벨에서 LLM의 평가를 하려고 했을 때 문제가 커질 우려가 있습니다. 벤치마크의 평가 결과에 의존하는 것이 아니라, 업무 환경에 적합한 프롬프트 작성이나 평가 관점의 우선순위 부여 등, 보다 실용적인 시점에서 LLM을 평가하는 자세가 중요합니다.
'인공지능 (AI)' 카테고리의 다른 글
트랜스포머 (인코더-디코더) 개념, 구조, 장점 (0) | 2025.02.13 |
---|---|
Encoder-Decoder 네트워크의 활용 사례 (0) | 2025.02.12 |
생성 AI/LLM 성능 평가 지표 (벤치마크) 종류 (0) | 2025.02.10 |
생성 AI/LLM 성능 평가 지표 (벤치마크) 방법 (0) | 2025.02.09 |
Encoder-Decoder 네트워크의 개념, 정의 (0) | 2025.01.04 |