-
벤치마크 데이터셋(GSM8K, MT Bench, MMLU)기타 2024. 12. 3. 13:12
GSM8K, MT Bench, MMLU에 대해서 정리
1. GSM8K
1. GSM8K란 무엇인가?
- GSM8K (Grade School Math 8K):
- 약 8,000개의 초등학교 수준의 수학 문제로 구성된 데이터셋
- 문제는 텍스트 형식으로 주어지며, 언어 모델이 문제를 읽고 풀이 과정을 통해 답을 도출해야 함
- 예를 들어:
- 문제: "Sally has 3 apples. She buys 2 more. How many apples does she have now?"
- 정답: "5"
2. 데이터셋의 구성
(1) 문제 유형
- 문제는 초등학교 수학에서 다루는 다양한 주제를 포함
- 산술 계산 (덧셈, 뺄셈, 곱셈, 나눗셈)
- 비율 및 비례 계산
- 시간 계산
- 거리와 속도 계산
- 논리적 사고 문제
- 단순한 계산부터 복잡한 다단계 추론 문제까지 다양한 난이도를 포함
(2) 정답 형식
- 각 문제에는 골드 라벨(정답)이 제공되며, 모델의 출력이 정답과 얼마나 일치하는지 평가
(3) 자연어 기반 문제
- 문제는 수학적 표현을 자연어로 설명하므로, 모델은 텍스트를 이해하고 수학적 추론을 수행해야 함
- 예: "Tom has twice as many pencils as Mary. If Mary has 3 pencils, how many pencils does Tom have?"
3. 평가 기준
(1) 정확도 (Accuracy)
- 모델이 문제의 정답을 맞추는 비율로 평가
- 예: 1,000개의 문제 중 800개를 맞췄다면, 정확도는 80%.
(2) 논리적 추론 능력
- 단순 계산 능력뿐만 아니라, 문제를 단계별로 풀어가는 Chain of Thought(CoT) 스타일의 추론 능력도 평가
4. GSM8K에서의 LLM 테스트
(1) 모델의 강점 테스트
- LLM의 텍스트 이해 능력과 수학적 추론 능력을 동시에 평가
- 특히, 단순 계산 이상으로 다단계 추론 능력이 요구
2. MT Bench
1. MT Bench의 목적
- MT Bench는 LLM이 단일 작업뿐만 아니라 다양한 작업(multitasking)을 처리할 수 있는 능력을 평가하는 데 초점
- 주요 목표:
- LLM의 범용성 평가: 여러 도메인에서 모델의 성능을 비교.
2. MT Bench의 구성
(1) 문제 유형
- MT Bench는 다양한 유형의 질문과 작업을 포함
- 일반 지식: 상식, 역사, 지리 등.
- 문학적 창의성: 시나 에세이 작성.
- 수학 문제: 논리적 추론과 계산.
- 코드 생성: 간단한 코드 작성 및 디버깅.
- 복잡한 논리적 질문: 다단계 추론이 필요한 질문.
- 대화: 사람과 자연스럽게 상호작용하는 능력.
(2) 평가 기준
MT Bench의 주요 평가지표:
- 정확성 (Accuracy):
- 답변이 정확한가?
- 이해도 (Understanding):
- 질문의 의도를 올바르게 이해했는가?
- 창의성 (Creativity):
- 창의적이고 새로운 아이디어를 제공할 수 있는가?
- 효율성 (Efficiency):
- 얼마나 빠르게 적절한 답변을 생성했는가?
(3) 데이터
- MT Bench는 160개의 쿼리로 구성됩니다.
- 쿼리는 LLM-as-a-judge 방식을 통해 평가됩니다:
- 강력한 모델(GPT-4)을 심판으로 사용하여 답변을 비교 평가.
- "어떤 모델이 더 나은 응답을 생성했는가?"라는 식으로 점수
3. MMLU(Massive Multitask Language Understanding)
1. MMLU의 목적
- 언어 모델이 다양한 학문적 주제와 도메인에서 얼마나 잘 작동하는지 평가.
- 지식 기반 능력과 추론 능력을 검증.
- 단순한 언어 이해를 넘어서, 다양한 분야의 전문 지식을 요구하는 질문에서의 성능을 측정.
2. MMLU의 특징
(1) 데이터셋 구성
- 57개 도메인에서 약 14,000개의 질문으로 이루어져 있음.
- 도메인은 아래와 같이 크게 분류됩니다:
- STEM(과학, 기술, 공학, 수학): 수학, 물리학, 컴퓨터 과학 등.
- 인문학: 역사, 철학, 문학 등.
- 사회 과학: 심리학, 경제학, 정치학 등.
- 기타: 법학, 의학, 비즈니스 등.
(2) 문제 형식
- 4지선다형(Multiple Choice) 질문:
- 질문과 함께 4개의 선택지가 주어지며, 모델은 정답을 선택해야 함.
- 예:
- 질문: "Who wrote the Iliad?"
- 선택지: A) Plato, B) Homer, C) Aristotle, D) Socrates
- 정답: B) Homer
(3) 난이도
- 초등 수준부터 대학원 수준까지 다양한 난이도를 포함.
- 일부 질문은 단순한 상식 기반 지식으로 답변 가능하지만, 다수는 깊은 전문 지식을 요구.
3. MMLU의 평가 기준
(1) 정확도 (Accuracy)
- 모델이 얼마나 높은 비율로 정답을 맞추는지 측정.
- 정확도는 랜덤 추측 정확도(25%)를 초과해야 의미 있는 성능으로 간주.
(2) 도메인 간 성능
- 특정 도메인에서만 높은 성능을 보이는 것이 아니라, 모든 도메인에서 고르게 높은 성능을 내는지를 평가.
- GSM8K (Grade School Math 8K):