ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 벤치마크 데이터셋(GSM8K, MT Bench, MMLU)
    기타 2024. 12. 3. 13:12

    GSM8K, MT Bench, MMLU에 대해서 정리

     

     

    1. GSM8K

    1. GSM8K란 무엇인가?

    • GSM8K (Grade School Math 8K):
      •  8,000개의 초등학교 수준의 수학 문제로 구성된 데이터셋
      • 문제는 텍스트 형식으로 주어지며, 언어 모델이 문제를 읽고 풀이 과정을 통해 답을 도출해야 함
      • 예를 들어:
        • 문제: "Sally has 3 apples. She buys 2 more. How many apples does she have now?"
        • 정답: "5"

    2. 데이터셋의 구성

    (1) 문제 유형

    • 문제는 초등학교 수학에서 다루는 다양한 주제를 포함
      • 산술 계산 (덧셈, 뺄셈, 곱셈, 나눗셈)
      • 비율 및 비례 계산
      • 시간 계산
      • 거리와 속도 계산
      • 논리적 사고 문제
    • 단순한 계산부터 복잡한 다단계 추론 문제까지 다양한 난이도를 포함

    (2) 정답 형식

    • 각 문제에는 골드 라벨(정답)이 제공되며, 모델의 출력이 정답과 얼마나 일치하는지 평가

    (3) 자연어 기반 문제

    • 문제는 수학적 표현을 자연어로 설명하므로, 모델은 텍스트를 이해하고 수학적 추론을 수행해야 함
    • 예: "Tom has twice as many pencils as Mary. If Mary has 3 pencils, how many pencils does Tom have?"

    3. 평가 기준

    (1) 정확도 (Accuracy)

    • 모델이 문제의 정답을 맞추는 비율로 평가
    • 예: 1,000개의 문제 중 800개를 맞췄다면, 정확도는 80%.

    (2) 논리적 추론 능력

    • 단순 계산 능력뿐만 아니라, 문제를 단계별로 풀어가는 Chain of Thought(CoT) 스타일의 추론 능력도 평가

    4. GSM8K에서의 LLM 테스트

    (1) 모델의 강점 테스트

    • LLM의 텍스트 이해 능력 수학적 추론 능력을 동시에 평가
    • 특히, 단순 계산 이상으로 다단계 추론 능력이 요구

    2. MT Bench

    1. MT Bench의 목적

    • MT Bench는 LLM이 단일 작업뿐만 아니라 다양한 작업(multitasking)을 처리할 수 있는 능력을 평가하는 데 초점
    • 주요 목표:
      • LLM의 범용성 평가: 여러 도메인에서 모델의 성능을 비교.

    2. MT Bench의 구성

    (1) 문제 유형

    • MT Bench는 다양한 유형의 질문과 작업을 포함
      • 일반 지식: 상식, 역사, 지리 등.
      • 문학적 창의성: 시나 에세이 작성.
      • 수학 문제: 논리적 추론과 계산.
      • 코드 생성: 간단한 코드 작성 및 디버깅.
      • 복잡한 논리적 질문: 다단계 추론이 필요한 질문.
      • 대화: 사람과 자연스럽게 상호작용하는 능력.

    (2) 평가 기준

    MT Bench의 주요 평가지표:

    1. 정확성 (Accuracy):
      • 답변이 정확한가?
    2. 이해도 (Understanding):
      • 질문의 의도를 올바르게 이해했는가?
    3. 창의성 (Creativity):
      • 창의적이고 새로운 아이디어를 제공할 수 있는가?
    4. 효율성 (Efficiency):
      • 얼마나 빠르게 적절한 답변을 생성했는가?

    (3) 데이터

    • MT Bench는 160개의 쿼리로 구성됩니다.
    • 쿼리는 LLM-as-a-judge 방식을 통해 평가됩니다:
      • 강력한 모델(GPT-4)을 심판으로 사용하여 답변을 비교 평가.
      • "어떤 모델이 더 나은 응답을 생성했는가?"라는 식으로 점수

    3. MMLU(Massive Multitask Language Understanding)

    1. MMLU의 목적

    • 언어 모델이 다양한 학문적 주제와 도메인에서 얼마나 잘 작동하는지 평가.
    • 지식 기반 능력 추론 능력을 검증.
    • 단순한 언어 이해를 넘어서, 다양한 분야의 전문 지식을 요구하는 질문에서의 성능을 측정.

    2. MMLU의 특징

    (1) 데이터셋 구성

    • 57개 도메인에서 약 14,000개의 질문으로 이루어져 있음.
    • 도메인은 아래와 같이 크게 분류됩니다:
      1. STEM(과학, 기술, 공학, 수학): 수학, 물리학, 컴퓨터 과학 등.
      2. 인문학: 역사, 철학, 문학 등.
      3. 사회 과학: 심리학, 경제학, 정치학 등.
      4. 기타: 법학, 의학, 비즈니스 등.

    (2) 문제 형식

    • 4지선다형(Multiple Choice) 질문:
      • 질문과 함께 4개의 선택지가 주어지며, 모델은 정답을 선택해야 함.
      • 예:
        • 질문: "Who wrote the Iliad?"
        • 선택지: A) Plato, B) Homer, C) Aristotle, D) Socrates
        • 정답: B) Homer

    (3) 난이도

    • 초등 수준부터 대학원 수준까지 다양한 난이도를 포함.
    • 일부 질문은 단순한 상식 기반 지식으로 답변 가능하지만, 다수는 깊은 전문 지식을 요구.

    3. MMLU의 평가 기준

    (1) 정확도 (Accuracy)

    • 모델이 얼마나 높은 비율로 정답을 맞추는지 측정.
    • 정확도는 랜덤 추측 정확도(25%)를 초과해야 의미 있는 성능으로 간주.

    (2) 도메인 간 성능

    • 특정 도메인에서만 높은 성능을 보이는 것이 아니라, 모든 도메인에서 고르게 높은 성능을 내는지를 평가.
Designed by Tistory.