LLM 품질 테스팅 시작하기

안녕하세요. 오피스품질팀에서 한컴오피스 Web 및 한컴어시스턴트를 담당하는 7년 차 QA 엔지니어 이수동입니다.

LLM에 관심이 높아지면서 해당 기술을 활용한 제품들이 출시되고 있습니다.

우리 회사도 한컴어시스턴트, 한컴피디아 등 AI 기술을 활용한 프로젝트를 진행하고 있으며, 제품 특성에 맞춘 자체 sLLM도 개발하고 있습니다. 이에 따라 LLM 및 sLLM(이하 (s)LLM)에 대한 자체 품질 평가가 필요해졌습니다.

품질보증실 내부에서는 별도 sLLM 테스팅 프로젝트를 진행 중입니다.

해당 글에서는 대표적인 LLM 평가 사례 소개와 함께 sLLM 테스팅 프로젝트에서 평가 방법을 리서치, 설계, 평가 진행한 내용을 정리해 보았습니다.

LLM 평가 사례

Open LLM Leaderboard

가장 대표적인 LLM 평가 방식은 Hugging Face의 Open LLM Leaderboard를 통해 제출하고 점수를 확인하는 방식입니다.

Open LLM Leaderboard 는 자연어 이해, 생성 능력, 추론 능력 등 여러 측면에서 모델의 성능을 평가합니다.

이 리더보드를 통해 개발자 등 관심 있는 사용자들은 다양한 LLM의 성능을 쉽게 비교하고 분석할 수 있습니다. 이를 통해 새로운 모델 개발이나 기존 모델의 개선 방향을 설정하는데 큰 도움이 됩니다.

하지만 시간이 지난 후 해당 Leaderboard 는 점수를 높게 하려고 편법으로 벤치마킹에 유리한 데이터를 학습하여 실제 성능보다 높은 점수를 받을 수 있었고, AI 모델의 특정 능력을 측정할 벤치마크가 없어서 리더보드에 반영하지 못하는 때도 있었습니다. 또한 데이터 세트의 노후화 등으로 실효성의 문제가 있었기 때문에 참고 및 비교용으로 활용할 수 있지만, 실제 높은 순위에 있는 LLM을 정성평가 시 만족스럽지 않은 결과가 나왔습니다.

✔ 관련 기사

못믿을 AI 순위표? “성적 올리려 기출문제만 달달 외우게 한다” [팩플]
[출처:중앙일보] https://www.joongang.co.kr/article/25246561

또한 LLM 기술이 빠르게 발전함에 따라 1년 전에 만들어진 벤치마크의 개선 필요성이 대두됐고, Hugging Face에서는 올해 6월 27일 새로운 Leaderboard Season 2를 공개했습니다.

기존의 추론(ARC), 상식(HellaSwag), 언어이해력(MMLU), 환각방지능력(TruthfulQA) 등 항목을 모두 없애고, 대신 멀티태스크 언어 이해(BBH), 복잡한 수학 능력(MATH Lvl 5), 전문 분야 지식(GPQA) 등 새로운 항목으로 교체하여 난이도를 올렸습니다.

Season 2로 변경하며, 기존 최고 80점대를 기록하던 기존 버전과 다르게 현재는 최고 50점대를 기록하여, 더욱 엄격해진 품질 지표를 보여주고 있습니다.

Open LLM Leaderboard 2
출처 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

Open Ko-LLM Leaderboard

Open LLM Leaderboard 는 영어 기준으로 평가를 하고 있습니다. 실제 한국어 기반으로 LLM 평가할 때 적절하지는 않습니다. 한국어 모델을 모아서 별도로 비교가 필요합니다.

이에 따라 한국어로 모델을 평가한 Open Ko-LLM Leaderboard 도 23년 9월에 새롭게 추가되었었습니다.

그리고 Open LLM Leaderboard 가 Season 2로 개선된 것처럼 올해 8월 12일부터 업그레이드된 Open Ko-LLM Leaderboard Season 2로 개선됐습니다.

Season 1에서 추론, 언어 이해, 환각 및 상식 측면에서 LLM의 역량을 평가하는 데 초점을 맞췄다면, Season 2에서는 LLM의 실용적인 능력과 신뢰성을 평가하는 데 초점을 맞추고 있습니다.

새롭게 변경된 데이터 세트는 비공개이며, 평가 과정에만 사용됩니다.

Season 2는 기존 추론 방식을 좀 더 세분화하여 아래 9개의 성능지표로 평가하고 있습니다.

Open Ko-LLM Leaderboard 시즌 2의 LLM 모델 성능 지표
출처 : https://www.aihub.or.kr/leaderboard/view.do?currMenu=500&topMenu=102

해당 리더보드도 Season 1 대비 엄격해진 평가 방식으로 작성일 기준으로도 Season 1은 70점이 넘은 모델이 있지만, Season 2는 아직 50점을 넘은 모델이 없습니다.

Open Ko-LLM Leaderboard 시즌2
출처 : https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard

Chatbot Arena Leaderboard

위와 같이 정해진 데이터 세트 기준으로 자체 평가를 하는 Leaderboard 가 있지만, 아예 인간이 직접 챗봇을 테스트하고 선호도를 평가하는 ‘Chatbot Arena’라는 Leaderboard도 인기를 얻고 있습니다.

Chatbot Arena는 두 개의 익명 AI 챗봇에 질문하고, 가장 좋은 응답을 선택하는 방식입니다.

현재는 149개의 모델에 대해 약 200만 명의 투표로 랭크를 매기고 있으며, 한국어에 대한 카테고리도 68개의 모델이 랭크되어 있습니다.

해당 리더보드를 활용하여 사용자들은 다양한 대화 모델을 비교하고 선택할 수 있습니다.

다만, 해당 리더보드는 아직 별도 Ko Leaderboard 가 없어서, 당장 한국어 언어모델 평가 하기에는 제약사항이 있습니다.

출처 : https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

자체 품질 평가

위와 같이 Leaderboard를 통해 성능지표를 확인할 수 있지만, 아래와 같은 문제점을 확인했습니다.

품질 개선 방향성 제시 불가
AI 모델의 특정 능력을 측정할 지표 미반영

이에 따라, 테스팅 그룹에서는 자체적인 LLM 평가안을 마련하기로 하였습니다.

LLM 품질 평가 설계

품질 평가 설계에서 가장 먼저 진행한 부분은 어떤 부분을 평가할지 품질 지표를 선정하는 것이었습니다.

Leaderboard 에서 사용되는 다양한 품질 지표 중 자체 sLLM에서 중점적으로 특화된 부분에 대한 지표를 활용하여 품질 평가를 하기로 했습니다.

품질 평가 시작하기

평가 프로세스는 아래와 같은 프로세스로 진행하였습니다.

품질 평가를 진행 간 정확성 다음으로 중요한 부분은 효율성과 신속성이라고 생각했습니다.

다만, 평가 데이터가 너무 적으면 신뢰도에 문제가 갈 수 있습니다.

그에 따라 모든 부분을 타협할 수 있도록 평가 프로세스에 LLM을 활용하기로 했습니다.

① 질의문 생성

질의문 생성하는 방법은 직접 생성, 기존 데이터 세트 활용, LLM을 통한 질의문 생성이 있습니다.

직접 생성하는 시간이 너무 오래 걸리며, 데이터 세트를 활용하는 방식은 기존 파인튜닝/데이터 학습을 목적으로 구성되었기 때문에 평가 신뢰에 영향을 줄 수 있습니다.

평가 신뢰성을 위해 지표당 최소 수백 개의 질의가 필요함에 따라 가장 시간이 적게 걸리고 효율적인 방안을 검토하였으며, 최종적으로 LLM을 통해 질의문을 생성하는 방식으로 진행하였습니다.

평가 지표별 주제를 정해서 LLM을 통해 약 5,000개의 질의문을 생성하는 데는 30분이 걸리지 않았습니다.

질의문은 지표 안에서도 정치, 경제, 사회 등 평가 지표에 적절한 세부 주제를 정하여 주제에 맞게 생성하였습니다.

생성된 질의문이 평가용으로 적절한지는 평가자가 직접 확인하는 작업을 거쳤으며, 그렇게 선정된 주제에 맞게 질의문을 생성하여 평가표에 기록했습니다.

② 답변 데이터 받기

평가를 진행하는 (s)LLM의 API를 사용하여, 질의문에 대한 답변을 평가 지표별로 받았습니다.

지표별 특화 시킨 프롬프트를 통해 자동으로 생성된 답변은 평가표에 기록됩니다.

③ 데이터 평가하기

평가 또한 LLM을 활용하기로 하였습니다.

LLM을 통한 평가 시에는 시간/인력 효율성이 매우 높아 품질 평가 커버리지 확장도 가능합니다.

실제 평가 시 인간과 LLM이 평가 방법에 차이가 없다는 부분은 논문으로도 발표됐습니다.

Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., & Stoica, I. (2023, December 24). *Judging LLM-as-a-judge with MT-bench and Chatbot Arena*. arXiv.org. https://arxiv.org/abs/2306.05685

지표별 평가 항목 또한 LLM을 통해 받아 해당 내용을 기준으로 점수를 받았습니다. 질의문을 기반으로 해당 지표에 맞게 답변 데이터가 생성됐는지 평가하여 점수를 책정했습니다.

항목별로 100점 만점으로 평가하였으며, 가중치를 고려하여 평균 품질 점수를 계산하였습니다.

해당 평균 점수가 90점을 넘으면 Pass, 넘지 못하면 Fail로 판단하여 평가표에 기록했습니다.

④ 결과 작성하기

최종적으로 작성된 각 평가 지표별 점수는 지표별, 지표 안에 있는 세부 항목별 점수로 구분하였습니다.

해당 자료를 기준으로 평가질의 및 답변은 비공개로 하고 인공지능연구개발팀에 공유하였습니다.

평가 효과 및 향후 계획

자체 평가를 진행한 후 인공지능연구개발팀과 24년 sLLM의 개발 중점 항목을 설정하였으며, 회차별 목표를 수립하였습니다. 설정한 지표에 대해 목표 수치에 맞는지 차수별 평가를 진행하고 있습니다.

한컴어시스턴트와 한컴피디아도 현재 ‘Judge by LLM’ 방식을 이용하고 있습니다.

한컴어시스턴트는 최근 PoC 준비를 위해 지원하는 기능들을 gpt-4o, HyperCLOVA X-Dash, Solar mini에서 각각 품질 평가하여 비교를 진행하였습니다.

어려웠던 점

첫 번째로는 프롬프트 작성 과정에서의 어려움이 있었습니다. 담당자별로 지표를 담당하다 보니 평가 프롬프트에 차이가 일부 발생했습니다. 또한 원하는 형식으로 답변을 받기 위해 프롬프트를 세분화하다 보니, 복잡해지는 문제가 생겼습니다.
두 번째로는 한컴어시스턴트 타겟을 염두에 둔 VBA 기준의 코딩 품질 지표 경우 난이도(초보~고급)별로 나눠 평가했지만 체감 품질 수준과 Pass 비율이 차이가 발생했습니다. Pass 비율은 비교적 높은 점수가 나왔지만, 실제로는 동작하지 않는 코드가 Pass로 평가되는 경우가 있었습니다.

개선해야 할 점

현재 자체 sLLM에 대한 성능 개선평가는 gpt-4o를 통해 차수별로 진행 중입니다.

정확한 평가를 위해서는 최대한 동일한 LLM으로 평가하는게 맞지만, gpt-4o도 꾸준히 업데이트되고 있습니다. 이에 따른 평가 간에 약간이라도 차이가 발생할 수 있어서 세부 버전까지 정해야 하는지 고민이 필요합니다.

출처 : https://platform.openai.com/docs/models/gpt-4o

마치며

이번 자체 평가를 통해 (s)LLM의 성능을 파악할 수 있었습니다. 각 모델의 실용적인 응용 가능성을 높이기 위해 특정 시나리오 테스트를 도입하고, 주요 기능별 성능지표를 세분화하는 등의 개선 방향을 계획 중입니다.

앞으로도 (s)LLM의 품질 평가 프로세스를 지속해서 개선하고, 더 많은 모델을 평가하여 품질 향상을 목표로 할 예정입니다. 특히, 테스트 데이터의 다양화를 통해 평가 결과의 신뢰성을 높이고, 정기적인 피드백 세션을 통해 평가 지표와 방법을 발전시키며 인공지능연구개발팀과의 협업을 강화할 예정입니다.

여기까지 읽어주셔서 감사합니다. 앞으로도 더 나은 품질과 성능을 위해 꾸준히 노력하겠습니다.

Reference

Post Views: 3,764