본문 바로가기
인공지능 (AI)

생성 AI/LLM 성능 평가 지표 (벤치마크) 방법

by worldproblemsolver 2025. 2. 9.

 

지금까지 인공지능 또는 LLM이 만들어지는 과정, 사용 사례 등에 대해서 깊게 알아보았습니다. 모든 제품들에는 성능과 품질을 확인하는 기준이 있는데요, 그렇다면 이렇게 만들어진 LLM은 어떤 기준으로 평가가 될까요?

 

LLM(대규모 언어 모델) 모델의 성능을 평가하기 위해서, 자주 '벤치마크'라고 하는 평가 지표가 채용되고 있습니다. 벤치마크는 언어 모델이 다양한 작업에 얼마나 잘 대응할 수 있는지 측정하고 다른 모델과 비교하는 데 사용됩니다.

 

앞으로의 블로그 포스팅에서는 LLM의 성공적인 비즈니스 활용을 위해 보다 구체적인 LLM 평가 방법에 주목하고자 합니다. LLM의 비즈니스 활용을 목표로 하는 데 있어서 붙잡아 두고 싶은 평가 지표나 벤치마크, 그것에 관련하는 문제점이나 한계 등 망라적으로 소개하겠습니다.

LLM의 성능 평가의 중요성과 어려움, 그리고 평가 관점의 다양함을 감안하면 비즈니스 적용을 위해 어떠한 방법으로 LLM을 평가해 나가는 것이 중요한 과제가 됩니다. 지금부터는, 자연어 처리나 LLM의 발전에 수반해 제안되어 온 평가 지표나 벤치마크에 대해 소개하겠습니다.


생성 AI·LLM 평가 지표

평가 지표는 인간의 개입 여부로 크게 구분되며, 인간을 거치지 않는 평가 방법은, 한층 더 매칭 베이스와 생성 베이스로 분류하고 있습니다.

 

매칭베이스 (matching-based)

매칭 기반 평가에는 어순과 문법을 무시하고 Ground Truth와 생성 텍스트의 일치도를 측정하는 F1 점수, ROUGE, BLEU 등 고전적 접근법과 Word2Vec 등 단어 임베딩과 신경망을 이용해 벡터 유사성으로 평가하는 BERTScore 등이 포함됩니다.

 

이러한 기법은 저비용이지만 평가 재현성이 높다는 이점이 있습니다. 문법적으로 부적절한 반복으로 점수가 높아지거나, 미묘한 뉘앙스나 복잡한 문맥의 의도를 추측하는 것이 어렵거나 하는 문제가 있습니다.

 

또, 인간의 취향과의 상관관계는 낮은 것이 지적되고 있습니다. 특히 LLM의 경우 Ground Truth가 유일하게 정해지지 않는 오픈 퀘스천이나 요약 태스크 등에서 평가로서 미흡합니다.

 

인간 베이스 (human-based)

자연어 생성에 있어서 매칭 기반 평가 결과가 인간의 감각이나 취향을 반영하지 못하고 있다는 논의는 많이 이루어지고 있습니다.

 

특히 LLM에서는 '생성 AI를 비즈니스 활용하는 데 있어서 억제해야 할 8가지 평가 관점'에서 소개한 바와 같이 진실성, 안전성, 공평성 등 다양한 관점에서의 평가가 필요하기 때문에 실제 인간에 의한 평가의 가치가 높아집니다.

 

인간의 피드백을 이용한 강화 학습(RLHF)은 ChatGPT의 모델에도 이용되고 있습니다.

 

한편, 평가하는 인간의 사회적 입장이나 문화적 배경에 의한 개체 간의 흔들림을 막을 수 없는 것, 인간을 거치지 않는 평가에 비해 비용이 크게 증가하는 것이 문제가 됩니다.

 

개개인이 복잡하고 다양한 배경을 갖기 때문에 평가의 흔들림을 완전히 없애기 어렵고 특정한 생각을 강요하는 것도 본질적이지 않습니다. 그 때문에 LLM의 개발 단계부터 복수의 입장의 인간에 의한 피드백을 종합적으로 반영하는 등의 궁리가 필요하게 됩니다.

 

생성 베이스 (generative-based)

LLM의 새로운 평가 방법으로는 GPT-4 등 강력한 LLM에게 평가를 시키는 방법(LLM에 의한 자동평가, LLM-as-a-Judge)이 있습니다.

 

LLM에 의한 자동 평가는 인간에 의한 평가와 매우 가까운 평가를 내린다는 연구 결과가 다수 나와 새로운 LLM 평가 방법으로 주목을 받고 있습니다.


오늘 포스팅에서는 LLM의 품질은 무엇으로 어떻게 평가되는지에 대해서 간략히 알아보았습니다.

이 '벤치마크'라고 불리는 평가 방법에는 MMLU (Massive Multitask Language Understanding), GLUE (General Language Understanding Evaluation, Super-naturalinstructions, MT-Bench, Rakuda Benchmark 등 다양한 기준 척도들이 있습니다.

 

다음 블로그 포스팅에서는 각각의 벤치마크들에 대해 자세히 알아보도록 하겠습니다.