벤치마크 데이터셋(GSM8K, MT Bench, MMLU) :: Memorize

ABOUT ME

-

Today: -

Yesterday: -

Total: -

벤치마크 데이터셋(GSM8K, MT Bench, MMLU)

기타 2024. 12. 3. 13:12
GSM8K, MT Bench, MMLU에 대해서 정리

1. GSM8K

1. GSM8K란 무엇인가?

GSM8K (Grade School Math 8K):

약 8,000개의 초등학교 수준의 수학 문제로 구성된 데이터셋

문제는 텍스트 형식으로 주어지며, 언어 모델이 문제를 읽고 풀이 과정을 통해 답을 도출해야 함

예를 들어:

문제: "Sally has 3 apples. She buys 2 more. How many apples does she have now?"

정답: "5"

2. 데이터셋의 구성

(1) 문제 유형

문제는 초등학교 수학에서 다루는 다양한 주제를 포함

산술 계산 (덧셈, 뺄셈, 곱셈, 나눗셈)

비율 및 비례 계산

시간 계산

거리와 속도 계산

논리적 사고 문제

단순한 계산부터 복잡한 다단계 추론 문제까지 다양한 난이도를 포함

(2) 정답 형식

각 문제에는 골드 라벨(정답)이 제공되며, 모델의 출력이 정답과 얼마나 일치하는지 평가

(3) 자연어 기반 문제

문제는 수학적 표현을 자연어로 설명하므로, 모델은 텍스트를 이해하고 수학적 추론을 수행해야 함

예: "Tom has twice as many pencils as Mary. If Mary has 3 pencils, how many pencils does Tom have?"

3. 평가 기준

(1) 정확도 (Accuracy)

모델이 문제의 정답을 맞추는 비율로 평가

예: 1,000개의 문제 중 800개를 맞췄다면, 정확도는 80%.

(2) 논리적 추론 능력

단순 계산 능력뿐만 아니라, 문제를 단계별로 풀어가는 Chain of Thought(CoT) 스타일의 추론 능력도 평가

4. GSM8K에서의 LLM 테스트

(1) 모델의 강점 테스트

LLM의 텍스트 이해 능력과 수학적 추론 능력을 동시에 평가

특히, 단순 계산 이상으로 다단계 추론 능력이 요구

2. MT Bench

1. MT Bench의 목적

MT Bench는 LLM이 단일 작업뿐만 아니라 다양한 작업(multitasking)을 처리할 수 있는 능력을 평가하는 데 초점

주요 목표:

LLM의 범용성 평가: 여러 도메인에서 모델의 성능을 비교.

2. MT Bench의 구성

(1) 문제 유형

MT Bench는 다양한 유형의 질문과 작업을 포함

일반 지식: 상식, 역사, 지리 등.

문학적 창의성: 시나 에세이 작성.

수학 문제: 논리적 추론과 계산.

코드 생성: 간단한 코드 작성 및 디버깅.

복잡한 논리적 질문: 다단계 추론이 필요한 질문.

대화: 사람과 자연스럽게 상호작용하는 능력.

(2) 평가 기준

MT Bench의 주요 평가지표:

정확성 (Accuracy):

답변이 정확한가?

이해도 (Understanding):

질문의 의도를 올바르게 이해했는가?

창의성 (Creativity):

창의적이고 새로운 아이디어를 제공할 수 있는가?

효율성 (Efficiency):

얼마나 빠르게 적절한 답변을 생성했는가?

(3) 데이터

MT Bench는 160개의 쿼리로 구성됩니다.

쿼리는 LLM-as-a-judge 방식을 통해 평가됩니다:

강력한 모델(GPT-4)을 심판으로 사용하여 답변을 비교 평가.

"어떤 모델이 더 나은 응답을 생성했는가?"라는 식으로 점수

3. MMLU(Massive Multitask Language Understanding)

1. MMLU의 목적

언어 모델이 다양한 학문적 주제와 도메인에서 얼마나 잘 작동하는지 평가.

지식 기반 능력과 추론 능력을 검증.

단순한 언어 이해를 넘어서, 다양한 분야의 전문 지식을 요구하는 질문에서의 성능을 측정.

2. MMLU의 특징

(1) 데이터셋 구성

57개 도메인에서 약 14,000개의 질문으로 이루어져 있음.

도메인은 아래와 같이 크게 분류됩니다:

STEM(과학, 기술, 공학, 수학): 수학, 물리학, 컴퓨터 과학 등.

인문학: 역사, 철학, 문학 등.

사회 과학: 심리학, 경제학, 정치학 등.

기타: 법학, 의학, 비즈니스 등.

(2) 문제 형식

4지선다형(Multiple Choice) 질문:

질문과 함께 4개의 선택지가 주어지며, 모델은 정답을 선택해야 함.

예:

질문: "Who wrote the Iliad?"

선택지: A) Plato, B) Homer, C) Aristotle, D) Socrates

정답: B) Homer

(3) 난이도

초등 수준부터 대학원 수준까지 다양한 난이도를 포함.

일부 질문은 단순한 상식 기반 지식으로 답변 가능하지만, 다수는 깊은 전문 지식을 요구.

3. MMLU의 평가 기준

(1) 정확도 (Accuracy)

모델이 얼마나 높은 비율로 정답을 맞추는지 측정.

정확도는 랜덤 추측 정확도(25%)를 초과해야 의미 있는 성능으로 간주.

(2) 도메인 간 성능

특정 도메인에서만 높은 성능을 보이는 것이 아니라, 모든 도메인에서 고르게 높은 성능을 내는지를 평가.

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바