[논문 리뷰] 44. From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

논문 2025. 1. 10. 02:00

기존의 방법론, 즉 매칭 기반 또는 임베딩 기반 접근법은 미묘한 속성을 평가하거나 만족스러운 결과를 제공하는 데 종종 한계

LLM의 발전은 "LLM-as-a-judge" 패러다임을 이야기 하며, 이는 다양한 작업과 응용 분야에서 점수 매기기, 순위 지정, 선택 등을 수행하기 위해 LLM을 활용하는 접근법

먼저 입력 및 출력 관점에서 자세한 정의를 제시

1) "무엇을 판단할 것인가"

2) "어떻게 판단할 것인가"

3) "어디에서 판단할 것인가"

라는 세 가지 차원에서 LLM-as-a-judge를 탐구하기 위한 포괄적인 분류 체계를 소개

머신러닝 및 NLP에서 평가와 검증은 오래전부터 필수적이면서도 도전적인 작업으로, 주어진 후보군의 다양한 속성(예: 품질, 관련성, 유용성)을 평가하고 비교하는 데 특히 중요한 역할

전통적인 평가 방법은 BLEU와 ROUGE와 같은 정적 지표에 의존하여 출력 텍스트와 참조 텍스트 간의 단어 중복을 계산하여 품질을 측정

이러한 자동화된 지표는 계산 효율성이 높고 많은 생성 응용 프로그램에서 사용되지만, n-그램 매칭과 참조 기반 설계에 의존하기 때문에 동적이고 개방형 시나리오에서의 적용성이 크게 제한

딥러닝 모델의 부상과 함께, BERTScore와 BARTScore와 같은 임베딩 기반 평가 방법이 등장

이러한 소규모 모델 기반 지표는 단어 수준에서 임베딩 수준의 표현으로 전환하며 더 큰 유연성을 제공하지만, 관련성을 넘어 유용성이나 무해성과 같은 미묘한 속성을 포착하는 데 여전히 어려움을 겪음

최근 GPT-4 및 o1과 같은 LLMs의 발전은 지침 준수, 쿼리 이해 및 응답 생성에서 놀라운 성능

이러한 진전은 강력한 LLM을 활용하여 후보 그룹에서 점수 매기기, 순위 지정 및 선택을 수행하는 "LLM-as-a-judge" 개념을 제안하도록 연구자들을 고무

LLM의 강력한 성능과 잘 설계된 평가 파이프라인의 결합은 다양한 평가 응용 프로그램에 대해 세분화되고 상세한 판단을 가능하게 하며, 전통적인 평가 방법의 한계를 상당히 해결하며 NLP 평가에서 새로운 표준을 설정

평가를 넘어, LLM-as-a-judge는 정렬, 검색, 추론과 같은 작업을 포함하여 전체 LLM 라이프사이클에 걸쳐 널리 채택

이는 LLM에 self-evolve, 능동적 검색, 의사 결정과 같은 일련의 고급 기능을 부여하며, 기존 모델에서 지능형 에이전트로의 변화를 이끌고 있음

그러나 LLM-as-a-judge가 빠르게 발전함에 따라, 판단 편향 및 취약성과 같은 도전 과제도 나타나고 있음

Attribute: What to judge?
도움, 무해성, 신뢰성, 관련성, 실행 가능성, 전반적 품질을 포함하여 판사 역할을 하는 LLM이 평가하는 특정 속성을 탐구
Methodology: How to judge?
수동으로 레이블된 데이터, 합성 피드백, 지도 학습, 선호 학습, 교체 연산, 규칙 보강, 다중 에이전트 협력, 데모, 다중 회전 상호작용 및 비교 가속화 등을 포함한 다양한 튜닝 및 프롬프팅 기술을 조사
Application: Where to judge?
평가, 정렬, 검색 및 추론을 포함하여 LLM-as-a-judge가 사용된 응용 프로그램을 조사

Input
판단 LLM \( J \)가 주어졌을 때, 평가 프로세스는 다음과 같이 공식화

\[
R = J(C_1, \dots, C_n).
\]

여기서 \( C_i \)는 판단 대상인 \( i \)-번째 후보를 나타내며, \( R \)은 판단 결과

이 섹션에서는 후보의 수 \( n \)에 따라 두 가지 입력 형식을 분류

1. Point-Wise (포인트 단위):
   \( n = 1 \)일 때, 이는 포인트 단위 판단이 되며, 판단 LLM은 하나의 후보 샘플에만 집중하여 평가를 수행

2. Pair/List-Wise (쌍/리스트 단위):
   \( n \geq 2 \)일 때, 이는 쌍 단위(\( n = 2 \)) 또는 리스트 단위(\( n > 2 \)) 판단이 되며, 판단 LLM은 여러 후보 샘플을 함께 제공받아 이를 비교하고 종합적인 평가를 수행

Point-Wise와 Pair/List-Wise 입력 형식을 이해하기 쉽게 예시를 들어 설명

1. Point-Wise (포인트 단위)
정의:
하나의 후보 샘플(\(n=1\))에 대해서만 Judge을 수행

Judge LLM은 해당 샘플의 품질, 적합성, 또는 속성을 단독으로 평가

예시:
- 질문: "이 문장은 문법적으로 올바른가요?"
- 후보 샘플 (\(C_1\)): "The cat sits on the mat."

Judge LLM은 \(C_1\)만을 보고 판단

예를 들어, 결과는 점수나 평가로 나올 수 있습니다:
  - 출력: \(R = \{ C_1 : 0.95 \}\) (점수 95%)

- 질문: "이 요약은 원문과 관련이 있는가?"
- 후보 샘플 (\(C_1\)): "The book discusses climate change impacts on agriculture."
  - 출력: \(R = \{ C_1 : 0.80 \}\) (80% 관련 있음)

2. Pair/List-Wise (쌍/리스트 단위):
정의:
둘 이상의 후보 샘플(\(n \geq 2\))을 동시에 평가하여 비교하거나 순위를 매김

\(n=2\)이면 쌍(pair) 단위 판단이고, \(n>2\)이면 리스트(list) 단위 판단

Pair-Wise 예시 (\(n=2\)):
- 질문: "두 문장 중 어떤 문장이 더 자연스러운가요?"
- 후보 샘플 (\(C_1, C_2\)):
  \(C_1\): "The cat sits on the mat."
  \(C_2\): "The mat on the sits cat."

Judge LLM은 두 문장을 비교하여 더 자연스러운 문장을 선택하거나 순위를 매김
  - 출력: \(R = \{ C_1 > C_2 \}\)
    (C\(_1\)이 더 자연스러움)

List-Wise 예시 (\(n>2\)):
- 질문: "다음 요약들 중 원문과 가장 관련이 높은 순서로 정렬하세요."
- 후보 샘플 (\(C_1, C_2, C_3\)):
  \(C_1\): "The book explores climate change."
  \(C_2\): "The book is a story about animals."
  \(C_3\): "The book discusses the impact of climate change on agriculture."

Judge LLM은 세 가지 요약을 비교하고 관련성 순서로 정렬
  - 출력: \(R = \{ C_3 > C_1 > C_2 \}\)
    (C\(_3\)이 가장 관련성이 높음)

주요 차이점 요약

형식	입력 후보 수	판단 방식	예시
Point-Wise	n = 1	하나의 샘플만 독립적으로 평가	한 문장의 문법, 하나의 요약 평가
Pair-Wise	n = 2	두 샘플을 비교	두 문장 중 자연스러운 문장 선택
List-Wise	n > 2	여러 샘플을 비교하여 순위 매기기	여러 요약을 관련성 기준으로 정렬

따라서, Point-Wise는 단일 후보의 독립적 평가에 적합하고, Pair/List-Wise는 비교나 순위 매기기가 필요한 경우에 적합

Output (출력)
이 섹션에서는 \( R \)의 형식에 따라 세 가지 종류의 판단 출력을 논의

1. Score (점수):
각 후보 샘플에 연속적 또는 이산적 점수가 할당될 때, 이는 점수 기반 판단이 됨

이 형식은 정량적 비교 또는 속성 감지를 위해 LLM이 점수를 생성하는 가장 일반적이고 널리 사용되는 프로토콜

   \[
   R = \{ C_1 : S_1, \dots, C_n : S_n \}.
   \]

2. Ranking (순위):
순위 기반 판단에서는 각 후보 샘플의 순위가 출력으로 제공되며, 이는 다음과 같이 표현

   \[
   R = \{ C_i > \dots > C_j \}.
   \]

이 비교적 접근법은 후보들 간의 순서를 설정해야 하는 상황에서 유용

3. Selection (선택):
선택 기반 판단에서는 최적의 후보 하나 이상을 선택하는 출력으로 제공되며, 이는 다음과 같이 표현

   \[
   R = \{ C_i, \dots, C_j \} > \{ C_1, \dots, C_n \}.
   \]

이 방법은 의사결정이나 콘텐츠 필터링과 같은 맥락에서 특히 유용

Judge LLM이 평가할 수 있는 다양한 측면

Helpfulness (유용성)

LLM은 instruction tuning 및 alignment과정을 통해 사용자 지침을 따르고 효과적으로 응답할 수 있는 능력을 갖추게 됨

이 정렬 단계는 일반적으로 인간 선호 데이터(human preference data)로 수집된 대량의 유용하고 무해한 데이터를 기반으로 하며, 이를 정렬 훈련을 위해 강화 학습에 사용

정렬 데이터를 얻는 데 드는 높은 비용을 감안하여, 최근 연구에서는 LLM을 활용해 유용성을 라벨링하거나 정렬 데이터를 생성 및 평가하는 방법을 탐구

LLM의 정렬을 위해 또 다른 LLM을 온라인 방식으로 사용하여 선호도를 얻는 방식을 제안

LLM을 활용한 정렬 선호도 획득
LLM 간의 온라인 정렬 방식은 하나의 LLM이 다른 LLM의 선호도를 얻도록 활용

예를 들어:
시나리오: 두 개의 후보 응답(예: A와 B)에 대해 어느 응답이 더 적합한지 판단해야 한다고 가정
방법:
한 LLM을 Judge LLM로 사용
다른 LLM이 생성한 두 응답(A와 B)을 Judge 모델에 입력
Judge LLM은 "A가 더 적합하다" 또는 "B가 더 적합하다"라는 선호도를 반환
결과 활용:이러한 선호도 데이터는 정렬 훈련 데이터로 사용되어 응답 품질을 높이는 데 기여
예시 상황:
질문: "기후 변화가 농업에 미치는 영향에 대해 설명하라."
응답 A: "기후 변화는 온도 상승과 강수 패턴 변화를 초래하여 농업 생산성에 부정적인 영향을 미칩니다."
응답 B: "기후 변화는 온도가 상승하고 강수량이 변화하며 농작물 수확에 좋지 않은 영향을 줄 수 있습니다."
Judge LLM은 A와 B를 비교한 후, 응답 A가 더 간결하고 적절하다고 판단.

일부 최신 연구에서는 LLM의 유용성 피드백(AI 기반 피드백)이 인간 피드백과 비교할 만한 수준이라는 결과를 보여줌

LLM 유용성 피드백(AI 기반 피드백)이 인간 피드백과 유사한 수준
LLM을 활용하여 유용성 피드백을 제공하고, 이를 인간 피드백과 비교할 수 있음
예를 들어:
목적: 응답이 얼마나 유용한지 평가하기 위해 LLM 피드백을 사용
방법:
한 그룹에서는 인간 평가자가 응답의 유용성을 점수(0~10)로 평가
다른 그룹에서는 Judge LLM이 동일한 응답에 대해 유용성을 점수화
두 결과를 비교하여 LLM의 평가가 인간 평가와 얼마나 유사한지 분석
예시 상황:
질문: "효율적으로 물을 절약하는 방법은?"
응답: "빗물을 수집해 재활용하거나 저수지 시스템을 설치하는 것이 효과적입니다."
평가:인간 평가자: 8점 (실용적이고 구체적이라고 판단)판단 LLM: 7.9점 (유사한 이유로 높은 점수 부여)
결과: LLM의 평가가 인간과 유사한 수준임을 확인.

AI 피드백 데이터를 사용해 미세 조정된 LLM이 우수한 성능을 발휘하며, 이러한 방법의 실현 가능성과 유용성을 입증

AI 피드백 데이터를 활용한 LLM 미세 조정
AI 기반 피드백 데이터를 사용해 LLM을 미세 조정하면, 성능을 더욱 향상시킬 수 있음
방법:
Judge LLM을 활용하여 여러 응답을 평가하고, 각 응답에 대한 유용성 피드백 데이터를 생성
이러한 데이터를 사용하여 생성 모델(예: GPT)의 미세 조정을 수행합니다.
효과:응답 품질이 이전보다 향상되며, 모델이 더 적합하고 구체적인 응답을 생성하도록 함
예시 상황:
질문: "기후 변화의 경제적 영향에 대해 논의하라."
응답 1: "기후 변화는 농업 생산성을 감소시키며, 이는 경제적 손실로 이어질 수 있습니다."
응답 2: "기후 변화는 경제 전반에 큰 영향을 미치며, 특히 농업, 에너지 및 보험 산업에 영향을 미칩니다."
Judge LLM: 응답 2가 더 포괄적이고 구체적이라고 판단.
결과: 이러한 피드백 데이터를 활용하여 모델이 더욱 구체적이고 유용한 응답을 생성하도록 미세 조정.

이러한 정렬 관련 연구 외에도, Judge LLM을 활용하는 일반 목적 프레임워크는 후보 응답의 유용성을 평가하는 데 중요한 역할

Harmlessness (무해성)

텍스트 데이터에서 무해성을 평가하는 것은 콘텐츠 검열 및 합성 데이터 세트를 생성하거나 관리하는 데 있어 중요

인간 라벨링 작업이 비용이 많이 들고 시간이 소요되는 점을 감안하여, 최근 연구에서는 LLM에 내재된 도덕적 신념을 활용해 무해성을 평가하는 방법을 탐구
LLM은 정책 지침에 따라 작동하거나, 안전/비안전 데이터를 활용해 미세 조정되었을 때 콘텐츠 검열에 효과적으로 사용될 수 있음
LLM을 사용해 세분화된 무해성 평가를 수행하며, 상용 모델이 오픈 소스 모델보다 훨씬 더 나은 성능을 발휘함을 발견
LLM이 무해성 평가를 수행하도록 원칙 제시하며, 이를 정렬 목적으로 사용하는 방식을 헌법 AI(Constitional AI)라고 부름

Reliability (신뢰성)

신뢰성은 LLM이 사실적이고 충실한 콘텐츠를 생성하는 동시에, 특정 주제에 대한 불확실성을 표현하거나 지식의 공백을 인정할 수 있도록 하는 데 중요한 속성

사실성 (Factuality)

관련 증거를 선택하고 상세한 비판을 제공함으로써 사실성 평가를 강화하는 비판 기반 환각 판단 모델인 HALU-J를 소개
- 대화 수준의 환각 평가를 위한 대규모 벤치마크를 수집하고, 대화 수준에서 환각을 평가할 수 있는 특화된 판단 언어 모델인 HalluJudge를 도입
- 콘텐츠를 원자 단위 문장으로 분할한 후 Wikipedia에서 관련 자료를 검색하여 사실성을 평가하는 세분화된 방법인 FactScore를 개발
- 세분화된 신뢰성 평가를 멀티모달 영역으로 확장하고, FaithScore를 도입

불확실성 판단 (Uncertainty Judgment)

SaySelf라는 새로운 훈련 프레임워크를 도입하여, LLM이 자체 일관성 프롬프팅 및 그룹 기반 보정 훈련을 통해 더 세분화된 신뢰성 추정을 표현할 수 있도록 함

Relevance (적합성)

적합성은 생성되거나 검색된 콘텐츠가 원래의 질의와 얼마나 잘 일치하는지를 측정

전통적인 적합성 평가 방법은 키워드 매칭 또는 의미적 유사성에 의존했지만, 이러한 방법은 맥락에서의 미묘한 차이점이나 뉘앙스를 포착하는 데 한계

LLM 기반 적합성 평가

대화 평가에서 인간 주석 작업을 대체하기 위해 LLM 판단을 활용하여 대화 맥락과 생성된 응답을 평가하도록 제안
대화 검색에서 LLM-as-a-judge를 적용하고, 인간 주석자와 협력하여 불완전한 적합성 판단 문제를 해결

RAG(Retrieval-Augmented Generation)에서의 적합성

특정 문제를 해결하기 위해 가장 관련성이 높은 과거 데이터를 결정하도록 LLM을 활용
LLM을 re-ranker로 채택하여 sub-knowledge graph에서 불필요하거나 관련성이 낮은 지식을 필터링하는 방식을 제안

멀티모달 응용에서의 적합성 평가

최근 멀티모달 LLM을 활용한 적합성 평가가 활발히 이루어지고 있습니다:

Feasibility (실현 가능성)

LLM의 잠재력은 복잡하고 잘 설계된 추론 파이프라인을 통해 더욱 확장될 수 있음

이러한 에이전트 LLM에서는 action이나 step의 실현 가능성을 평가하는 것이 계획, 추론, 의사결정의 성공에 있어 필수적

일부 연구는 실현 가능성 평가를 위해 측정 지표(metrics)나 외부 도구를 활용하지만, 많은 연구는 LLM 자체를 활용하여 가장 적절하고 합리적인 행동을 선택

LLM을 활용한 실현 가능성 평가 사례

Hao et al. (2023):
- LLM에 자체 평가(self-evaluation)를 수행하도록 하고, 실현 가능성 판단(feasibility judgment)을 보상 신호로 생성하여 Monte Carlo Tree Search (MCTS)를 수행하도록 제안
Yao et al. (2023a):
- Tree-of-Thought (ToT) 프레임워크에서 잠재적 단계를 탐색하기 위해 LLM을 상태 평가자(state evaluator)로 사용하는 방식을 제안
Besta et al. (2024):
- 이전 연구에서 사용된 트리 구조를 그래프 구조(graph structures)로 대체하고, 각 사고(thought)의 실현 가능성이나 정확성에 기반해 점수를 할당하도록 LLM을 활용
다중 에이전트 협업 시스템 (Multiagent Collaboration Systems):
- Liang et al. (2023), Li et al. (2024b), Wang et al. (2024c)는 여러 후보 응답 중에서 가장 실현 가능하고 합리적인 솔루션을 선택하도록 판단 LLM을 사용하는 방식을 제안

Methodology

Present commonly adopted methods and tricks for LLM-as-a-judge, splitting them into tuning approaches and prompting strategies

1) Tuning

일반 LLM의 판단 능력을 향상시키기 위해 다양한 튜닝 기술이 여러 연구에서 활용

표 1은 Judge LLM 튜닝에 초점을 맞춘 모든 연구 논문을 수집한 것

- Data Source
수동 라벨 데이터

Judge LLM을 인간과 유사한 기준으로 학습시키기 위해, 직관적인 방법 중 하나는 수동으로 라벨링된 샘플과 해당 판단을 수집하는 것

이전 연구에서 사용 가능한 데이터를 활용하고 통합하여 Judge LLM 튜닝을 위한 포괄적인 데이터셋을 구축한 사례가 많음

합성 피드백

수동 라벨 피드백은 높은 품질을 보이며 인간의 판단 선호도를 정확히 반영하지만, 양과 범위에서 한계

따라서 일부 연구자들은 Judge LLM의 튜닝을 위한 데이터 소스로 합성 피드백을 활용하기 시작

이 방향의 한 접근법은 Judge LLM 자체를 활용하여 합성 피드백을 생성하는 것

예를 들어, Wu et al.는 policy LLM이 자신의 판단을 평가하도록 프롬프트를 설정해, 판단 향상을 위한 쌍별 피드백을 생성

Wang et al.는 LLM에 원래 지침의 "노이즈가 포함된" 버전을 생성하도록 프롬프트를 설정하고, 손상된 지침에 대한 대응 응답을 열등한 응답으로 사용

Wang et al.는 GPT-4-Turbo를 활용해 각 사례의 원래 증거를 기반으로 여러 증거를 생성하고 이를 완전히 관련 없는 증거, 부분적으로 관련 없는 증거, 매우 관련 있는 증거로 분류하여 환각 판단 LLM을 학습

Park et al.는 OFFSETBIAS라는 쌍별 선호 데이터셋을 구축하며, GPT-4를 활용해 부적절하거나 주제에서 벗어난 응답, 오류가 포함된 응답을 생성하고 난이도 필터링을 수행

안전 판단을 위해 Xie et al.는 GPT-4를 분류기로 사용하여 각 데이터 포인트를 사전에 정의된 안전 카테고리로 매핑하여 자동 평가기를 학습

이전 연구와는 다르게, Li et al.는 GPT-4를 활용해 쌍별 및 단일 기준 데이터를 모두 합성하여 생성적 Judge LLM을 학습

단일 기준 데이터의 경우, “분할 및 정복” 전략을 채택하여 GPT-4로부터 하나의 응답에 대해 두 가지 비판을 수집하고, 이를 종합하여 더 포괄적인 비판을 생성한 뒤 최종 평가를 제공합니다.

이를 따르며, Kim et al.는 GPT-4를 사용해 세부적인 인간 평가 기준과 구두 피드백을 포함하여 선호 학습 데이터셋을 보강

- Tuning Techniques

Supervised Fine-tuning
지도 학습 기반 미세 조정(SFT)은 Judge LLM이 쌍별 또는 단일 기준의 Judge 데이터를 학습하도록 돕는 가장 일반적으로 사용되는 접근법

SFT를 채택한 여러 연구 중 Vu et al.는 다양한 작업의 혼합 데이터셋에서 Foundational Large Autorater Models(FLAMe)을 튜닝하기 위해 지도 멀티태스킹 학습을 제안

Judge LLM이 쌍별 및 단일 기준 판단 능력을 모두 갖추도록 하기 위해, Kim et al.는 튜닝 단계에서 공동 학습 및 가중치 병합 방식을 새롭게 제안했으며, 후자는 대부분의 경우 평가 성능을 향상시키지 못한다고 이야기함

쌍별 선호도를 비교할 뿐만 아니라 응답도 생성할 수 있는 Judge 모델을 얻기 위해, Lee et al.는 선호 학습 데이터셋을 보강하여 Judge-augmented Supervised Fine-tuning (JSFT)을 고안

학습 단계에서 Ke et al.는 입력의 다른 부분을 구별하도록 단순화된 프롬프트를 추가하고, 생성된 두 텍스트의 순서를 바꾸고 비판 내용의 해당 내용을 교환하여 쌍별 학습 데이터를 보강

Xu et al.는 INSTRUCTSCORE 모델을 자체 생성된 출력으로 추가 튜닝하여 피드백 점수를 최적화했고, 결과적으로 인간 판단과 더 잘 맞는 진단 보고서를 생성

Liu et al.는 두 단계로 구성된 지도 학습 기반 미세 조정 접근법을 제안하며, 첫 번째로 일반적인 지침 튜닝을 통해 모델이 다양한 평가에 대한 지침을 따를 수 있는 능력을 갖추도록 하고, 이후 대상 평가 측면과의 잠재적 연결성을 활용하기 위해 추가적인 지침 튜닝 단계를 포함하여 학습 과정을 풍부하게 함

Preference Learning
선호 학습은 특히 비교 및 순위 판단과 관련된 작업에서 판단 및 평가 작업과 밀접하게 관련

지도 학습 기반 미세 조정을 위해 선호 학습 데이터셋을 직접 채택하거나 보강하는 연구 외에도, LLM의 판단 능력을 강화하기 위해 선호 학습 기술을 적용한 여러 연구가 존재

HALU-J의 판단 품질을 향상시키기 위해, Wang et al는 다중 증거 설정에서 SFT 단계 이후 Directed Preference Optimization(DPO)을 사용하여 모델을 추가 튜닝

이와 유사하게, Park et al.는 Judge LLM의 편향을 완화하도록 도와주는 "잘못된" 응답(치명적인 오류를 포함하지만 Judge 모델이 선호하는 스타일적 특성을 가진 응답)으로 구성된 합성 데이터를 사용하여 DPO를 적용

Wu et al.는 정책 LLM이 자신의 판단 품질을 평가하고 쌍별 신호를 생성하여 LLM의 판단 능력을 강화하는 메타-리워딩(meta-rewarding)을 새롭게 제안

이 개념은 Wang et al.에 의해 채택되었으며, 손상된 지침을 사용해 최적이 아닌 응답을 생성하여 선호 학습의 열등한 사례로 활용하는 자가 학습 평가자를 제안

최근 Hu et al.는 다중 관점 일관성 검증과 평점 지향 선호 정렬 방식을 설계해 학습된 NLG 평가 전용 LLM인 Themis를 제안

Li et al.는 위치 편향을 효과적으로 교정하기 위해 인간의 비교 행동을 모방하도록 설계된 정렬 기반 접근법인 PORTIA를 제안

2) Prompting

추론 단계에서 적절한 프롬프트 전략과 파이프라인을 설계하면 판단 정확도를 높이고 편향을 완화할 수 있음

- Swapping Operation
이전 연구들은 LLM 기반 Judge가 후보의 위치에 민감하며, 단순히 컨텍스트 내 순서를 변경함으로써 후보 응답의 품질 순위를 쉽게 조작할 수 있음을 보여줌

이러한 위치 편향을 완화하고 보다 공정한 LLM 판단 시스템을 구축하기 위해 Swapping Operation 도입되어 널리 활용

이 기술은 Judge LLM을 두 번 호출하며, 각 사례에서 두 후보의 순서를 교환하는 방식을 포함

평가 중 교환 후 결과가 일치하지 않으면 이를 "동점(Tie)"으로 표시하며, 이는 LLM이 후보들의 품질을 자신 있게 구별하지 못함을 나타냄

여러 연구에서도 Judge LLM의 보다 정확한 쌍별 피드백을 얻기 위해 Self-alignment에 교환 연산을 통합

Zhu et al.는 CoT와 유사한 프롬프트 기술을 제안하여 위치 편향을 완화

이 기법에서는 모델에 먼저 모든 쌍별 순위를 제공한 후, 최종적으로 순위 목록을 요약하도록 요청

- Rule Augmentation
Rule Augmentation 프롬프트는 평가 기준, 참조 자료, 평가 척도를 Judge LLM의 프롬프트에 직접 내재화하는 방식을 포함

이 접근법은 LLM 기반 평가에서 널리 사용되며, Judge LLM이 특정 측면을 평가하도록 안내하는 데 활용

또한, 공정한 비교를 보장하기 위해 세부적인 평가 척도를 제공

Liu et al는 독특한 접근법으로, 소수의 예시를 활용한 인컨텍스트 학습을 통해 Judge LLM이 자체적으로 평가 기준을 생성하도록 프롬프트를 설정

Bai et al. 처음으로 Judge LLM이 두 후보를 비교하는 데 더 정확하고 방향성을 가진 평가를 제공하도록 "도움됨", "무해함", "정직함"과 같은 원칙 목록을 도입

이후 연구(는 각 원칙 또는 평가 척도의 측면에 대해 더 세부적인 설명을 포함하여 이러한 원칙 중심 프롬프트를 강화

또한, Li와 Qiu 및 Li et al. 는 LLM이 특정 문제 해결에 대한 도움됨을 기준으로 적절한 데모나 지식 삼중항을 검색하도록 프롬프트를 설정

Lahoti et al.는 LLM이 각 후보의 다양성을 평가하고 가장 다양한 응답을 선택해 추가로 다듬도록 여러 LLM을 프롬프트하는 방식을 제안

Zhang et al.는 RevisEval을 제안하며, LLM의 자기 수정 능력을 활용해 응답을 적응적으로 수정하고, 수정된 텍스트를 이후 평가의 원칙으로 간주

최근에는 LLM-as-a-personalized-judge의 신뢰성을 조사하는 연구가 등장했으며, 이를 통해 LLM이 개인화된 판단을 내릴 수 있도록 원칙의 일부로 페르소나를 제공하는 방식을 제안

- Multi-agent Collaboration
단일 LLM Judge에서 도출된 결과는 LLM에 내재된 다양한 편향으로 인해 신뢰하기 어려울 수 있음

이러한 한계를 해결하기 위해, Li et al.는 Peer Rank(PR) 알고리즘을 도입했으며, 이는 각 동료 LLM의 모든 답변 쌍에 대한 쌍별 선호도를 고려해 모델의 최종 순위를 생성

이를 기반으로 여러 다중 에이전트 LLM 아키텍처와 기술이 개발

예를 들어, 에이전트 혼합 (mixture-of-agent), 역할 연기 (role play), 토론 (debating), 투표 (voting) 등이 존제

Jung et al.는 Cascaded Selective Evaluation을 제안했으며, 보다 강력한 모델로의 평가가 필요한 경우에만 초기 Judge로 비용 효율적인 모델을 활용하도록 설계

또한, 다중 에이전트 협업을 정렬 데이터 합성에 적용하여 여러 Judge LLM을 활용해 응답을 정제하거나 보다 정확한 쌍별 피드백을 제공하는 연구

최근 Li et al. 은 MATEval을 제안했으며, 모든 에이전트를 GPT-4와 같은 LLM으로 구성

MATEval 프레임워크는 인간의 협업 토론 방식을 모방하며, 다중 에이전트 간 상호작용을 통합해 개방형 텍스트를 평가

- Demonstration
In-context 샘플이나 Demonstration는 LLM이 따를 구체적인 예를 제공하며, LLM의 In-context 학습 성공에 중요한 요소로 밝혀짐

여러 연구는 LLM-as-a-judge에서 인간 평가 결과를 Demonstration로 도입해 LLM이 소수의 구체적인 In-context 예제를 통해 평가 기준을 학습하도록 유도

Jain et al.는 In-context 학습을 활용해 다차원 평가자로서의 대형 언어 모델의 효용성을 처음으로 탐구하며, 대규모 학습 데이터셋의 필요성을 제거

Kotonya et al.는 표준 프롬프트, 주석자 지침을 활용한 프롬프트, Chain-of-Thought 프롬프트 등 다양한 프롬프트 기법을 체계적으로 실험하고 이를 제로샷 및 원샷 학습과 결합해 평가 효과를 극대화

Hasanbeig et al.는 ALLURE라는 접근법을 제안하며, 주요 편차의 데모를 반복적으로 포함해 평가자의 강건성을 향상

또한, Song et al.는 LLM의 잠재적 편향을 완화하기 위해 두 가지 Many-shot In-context 학습(ICL) 프롬프트 버전을 도입하고 연구

- Multi-turn Interaction
평가 시 단일 응답은 Judge LLM이 각 후보의 성과를 철저하고 공정하게 평가하기에 충분하지 않을 수 있습니다. 이를 해결하기 위해 다중 회차 상호작용이 흔히 채택되며, 더 포괄적인 평가를 제공합니다. 일반적으로 초기 쿼리나 주제로 시작한 뒤, Judge LLM과 후보 모델 간의 동적 상호작용이 이어집니다. Bai et al. (2023b)는 평가자가 면접관 역할을 맡아 이전 답변을 기반으로 점차 복잡한 후속 질문을 제시하는 다중 라운드 설정을 제안했습니다. 이와 유사하게, Yu et al. (2024d)는 LLM 기반 상호작용자를 포함해 동적이고 오염 저항적인 평가를 가능하게 하는 KIEval이라는 지식 기반 상호 평가 프레임워크를 도입했습니다.

또한, 후보 간의 토론을 다중 라운드 형식으로 촉진하는 접근법도 있습니다. 예를 들어, Zhao et al. (2024c)는 두 개의 LLM이 쿼리와 관련하여 다중 라운드 동료 배틀(peer battle)을 수행하도록 설계된 프레임워크를 제안하며, 이를 통해 모델의 실제 성능 차이를 드러낼 수 있도록 했습니다. Moniri et al. (2024)는 LLM이 토론을 수행하고 최종 평가를 또 다른 LLM Judge가 수행하는 자동화된 벤치마킹 시스템을 제안했습니다.

- Comparison Acceleration
LLM-as-a-judge에서 다양한 비교 형식(예: 점별 비교, 목록형 비교) 중, 쌍별 비교(pair-wise comparison)는 두 모델을 직접 비교하거나 쌍별 피드백을 생성하는 가장 일반적인 접근법입니다. 그러나 여러 후보를 순위 매길 때 이 방법은 상당히 시간 소모적일 수 있습니다(Zhai et al., 2024).

이러한 계산 오버헤드를 완화하기 위해, Zhai et al. (2024)는 모든 후보를 빈 응답(baseline response)과 비교한 후, 각 후보의 순위를 baseline과의 성과 비교를 통해 결정하는 **순위 매칭 방법 (ranked pairing method)**을 제안했습니다. Zhu et al. (2024a)는 CoT와 유사한 프롬프트 기법을 제안하며, 모델이 모든 쌍별 순위를 먼저 제공한 뒤 이를 요약하여 순위 목록을 작성하도록 강제함으로써 위치 편향을 완화했습니다. 또한, Lee et al. (2024)는 추론 중 쌍별 비교를 가속화하기 위해 토너먼트 기반 접근법(Liu et al., 2023a; Zhao et al., 2023c)을 활용했습니다. 이들은 샘플 응답을 리프 노드로 구성한 토너먼트 트리를 생성하며, 하위 노드 간 판단 결과를 기반으로 비리프 노드를 선택하는 방식으로 작업을 수행했습니다.

Application

LLM-as-a-judge는 초기에는 평가 응용을 목적으로 제안되었으나, 그 사용 범위는 정렬(alignment), 검색(retrieval), 추론(reasoning) 등 다양한 시나리오로 크게 확장되었음

Evaluation

전통적인 NLP 평가에서는 사전 정의된 기준을 기반으로 기계 생성 텍스트의 품질을 평가하며, 주로 메트릭(metric)을 활용

대표적인 메트릭으로는 BLEU, ROUGE, BERTScore 등이 있으며, 이들은 해당 분야에서 널리 사용되고 있음

그러나 메트릭 기반 평가는 어휘적 중복 및 유사성에 과도하게 의존하며, 여러 가지 유효한 응답을 고려하거나 미묘한 의미적 속성을 평가해야 할 때 한계

이러한 한계를 해결하기 위해, LLM-as-a-judge는 많은 작업에서 평가를 강화하기 위한 자동화된 평가자로 사용

LLM-as-a-judge는 기계 생성 출력물이 정답과 얼마나 잘 일치하는지를 단순히 양적으로 비교하는 대신, 인간과 유사한 질적 평가를 가능하게 함

1) Open-ended Generation Tasks

개방형 생성은 생성된 콘텐츠가 안전하고 정확하며 맥락적으로 적절해야 하지만, 단일 "정답"이 존재하지 않는 작업을 의미

이러한 작업에는 대화 응답 생성, 요약, 스토리 생성, 창의적 글쓰기 등이 포함

기존의 메트릭 기반 평가 방법과 달리, LLM-as-a-judge는 더 세부적이고 적응 가능하며 맞춤화된 평가를 제공

Zheng et al. (2023)에 따르면, GPT-4와 같은 LLM은 개방형 텍스트 생성 평가에서 인간과 비슷한 수준의 성능을 발휘

실제로, LLM-as-a-judge는 단일 모델의 출력 평가뿐만 아니라, 여러 모델 간 출력 비교를 위한 경쟁적 환경에서도 활용

현대의 LLM은 상세하고 긴 형식의 응답을 생성하는 데 능숙하지만, 출력 길이가 길어질수록 환각(hallucination)의 가능성도 증가

환각 외에도, 유해하거나(e.g., 자살 권유) 안전하지 않은(e.g., 불법 활동에 대한 안내) 응답의 생성은 중요한 우려 사항

최근 연구는 LLM-as-a-judge를 활용해 생성 모델의 일반적인 능력을 평가하는 데에도 집중하고 있습니다. 이러한 접근법은 종종 토론 기반 프레임워크를 채택하며, 여러 LLM이 응답을 생성한 후 이를 별도의 평가 LLM이 평가하는 방식입니다. 예를 들어, Chan et al. (2023)는 자율적인 토론을 촉진하고 다양한 LLM의 개방형 텍스트 생성 작업에서 생성된 응답의 품질을 평가하도록 설계된 다중 에이전트 토론 프레임워크를 소개했습니다. 비슷하게, Moniri et al. (2024)는 자동화된 토론 프레임워크를 제안하며, 이를 통해 LLM의 도메인 지식뿐만 아니라 문제 정의 및 비일관성 인식 능력까지 평가했습니다.

5.1.2 추론 작업 (Reasoning Tasks)

LLM의 추론 능력은 특정 추론 작업에서 중간 사고 과정과 최종 답변을 통해 평가될 수 있습니다(Mondorf and Plank, 2024; Bernard et al., 2024). 최근에는 LLM-as-a-judge가 모델의 중간 추론 경로의 논리적 진행, 깊이, 일관성을 평가하는 데 사용되고 있습니다.

수학적 추론 작업에서는 Xia et al. (2024)가 문제 해결 과정에서 추론 단계의 품질을 평가하기 위해 설계된 Judge LLM을 사용하는 자동 평가 프레임워크를 소개했습니다. LLM-as-a-judge는 또한 **시간적 추론 (Temporal Reasoning)**과 같은 더 복잡한 추론 작업에도 적용될 수 있으며, 여기에서 모델은 시간에 따른 다양한 사건의 관계를 이해해야 합니다. Fatemi et al. (2024)는 시간적으로 정렬된 사건 간의 시퀀스, 인과 관계, 종속성을 추론하는 능력을 테스트하기 위해 다양한 시나리오에 맞춰 설계된 합성 데이터셋을 구축했습니다.

대규모 학습 데이터는 모델이 깊은 논리적 이해를 통해 추론하는지 아니면 단순히 암기한 패턴을 활용하는지 판단하기 어렵게 만듭니다(Parmar et al., 2024). 이에 대해 Wang et al. (2023a)는 특정 질문을 두고 사용자와 LLM이 상반된 입장을 취하며 올바른 결론에 도달하기 위해 논의하는 토론형 프레임워크를 설계했습니다. Nan et al. (2024)는 학술 동료 평가(peer review) 과정을 시뮬레이션하는 다중 에이전트 평가 프레임워크를 개발했습니다. 이 프레임워크는 Judge 역할의 LLM을 활용한 협업 리뷰를 통해 데이터 기반 작업에서 LLM의 추론 능력을 더 세밀히 이해할 수 있도록 합니다.

5.1.3 신흥 작업 (Emerging Tasks)

LLM의 능력이 빠르게 발전함에 따라, 기계는 점점 더 인간 고유의 작업으로 여겨졌던 영역에서 활용되고 있습니다. 특히 맥락에 특화된 분야에서 그 활용이 두드러지고 있습니다.

**사회적 지능(Social Intelligence)**은 대표적인 사례로, 모델이 문화적 가치, 윤리적 원칙, 잠재적 사회적 영향을 이해해야 하는 복잡한 사회적 시나리오를 다룹니다. 예를 들어, Xu et al. (2024a)는 LLM의 사회적 지능을 평가하며, 이러한 모델이 상당한 발전을 이루었지만 여전히 학문적 문제 해결 능력에 비해 사회적 지능에서 크게 뒤처져 있음을 강조했습니다. 유사하게, Zhou et al. (2023)는 LLM 에이전트 간의 복잡한 사회적 상호작용을 시뮬레이션하고 사회적 지능을 평가하기 위해 SOTOPIA와 SOTOPIA-EVAL을 소개했습니다. 이 연구에서 GPT-4는 목표 달성, 재정 관리, 관계 유지 등 시뮬레이션된 상호작용에서 인간 판단의 대리로 사용되었습니다.

또한, 대형 멀티모달 모델(LMM) 및 **대형 비전-언어 모델(LVLM)**의 평가로도 연구가 확장되고 있습니다. Xiong et al. (2024b)는 LMM-as-a-judge를 활용하여 멀티모달 모델의 성능을 평가하며, 최종 점수뿐 아니라 평가의 근거를 제공해 투명성과 일관성을 촉진했습니다. Chen et al. (2024d)는 LVLM의 자동 평가를 위한 첫 번째 벤치마크를 제안하며, 자율 주행의 코너 케이스에 초점을 맞췄습니다. 이들은 LLM-as-a-judge로 수행된 평가가 LVLM-as-a-judge보다 인간 선호도와 더 잘 일치한다고 발견했습니다.

최근에는 코드 이해(Zhao et al., 2024a; Quan et al., 2025), 법률 지식(Fei et al., 2023), 게임 개발(Isaza-Giraldo et al., 2024), 해양 과학(Bi et al., 2023), 헬스케어 대화(Wang et al., 2024m), 토론 판단(Liang et al., 2024a), 검색 증강 생성(RAG)(Dhole et al., 2024), HCI(Li et al., 2024j; Chai et al., 2025), 역할 연기(Zhou et al., 2024b), 음성 합성(Park et al., 2024b), 반대 발언 생성(Counterspeech Generation)(Bennie et al., 2025b) 등 다양한 신흥 작업에 LLM-as-a-judge가 맞춤화되어 활용되고 있습니다. 이러한 추세는 LLM-as-a-judge가 다양한 전문 분야를 평가하는 데 있어 점점 더 적응력을 키워가고 있음을 반영합니다.

5.2 정렬 (Alignment)

정렬 튜닝(Alignment Tuning)은 LLM을 인간의 선호와 가치에 맞추는 데 중요한 기술입니다(Wei et al., 2022a; Ouyang et al., 2022). 이 과정에서 핵심 요소는 고품질의 쌍별 피드백(pairwise feedback)을 수집하는 것이며, 이는 보상 모델링(Schulman et al., 2017) 또는 직접 선호 학습(Direct Preference Learning, Rafailov et al., 2023)을 위해 필수적입니다. 최근에는 정렬 튜닝에서 LLM-as-a-judge를 채택해 이러한 쌍별 피드백 메커니즘을 자동화하려는 연구 관심이 증가하고 있습니다.

5.2.1 더 큰 모델을 Judge로 활용 (Larger Models as Judges)

정렬 튜닝에서 LLM-as-a-judge를 채택하는 직관적인 아이디어는 더 크고 강력한 LLM의 피드백을 활용해 더 작고 성능이 낮은 모델을 안내하는 것입니다. Bai et al. (2022)는 AI의 피드백을 사용하여 무해한 AI 보조 도구를 구축하는 방법을 처음으로 제안했습니다. 이들은 사전 학습된 언어 모델의 선호를 기반으로 합성 선호 데이터(synthetic preference data)를 사용해 보상 모델을 학습시켰습니다. 이를 바탕으로 Lee et al. (2023)는 LLM Judge가 충분히 강력하지 않을 때에도 RLAIF(Reward Learning with AI Feedback) 방법이 RLHF(Reward Learning with Human Feedback)와 유사한 성능을 달성할 수 있음을 발견했습니다. 이들은 또한 DIRECT-RLAIF를 도입했으며, 이는 사전 제작된 LLM을 Judge 모델로 직접 활용하여 보상 모델의 보상 정체(reward staleness)를 완화했습니다.

보상 해킹(reward hacking)을 방지하기 위해, Sun et al. (2024a)는 합성 선호 데이터를 사용해 훈련된 조작 가능한(instructable) 보상 모델을 설계했습니다. 이를 통해 인간이 RL(강화 학습) 과정에서 개입하여 대상 정책을 인간 가치에 더 잘 맞출 수 있도록 했습니다.

이 외에도 Guo et al. (2024)는 **Online AI Feedback (OAIF)**를 도입하여 주석 모델(annotation model)에서 직접 선호 신호를 활용해 대상 모델을 학습시켰습니다. 또한, 정렬 튜닝에서 더 나은 판단을 위해 다중 에이전트 협력을 활용하는 연구도 있습니다. Arif et al. (2024)와 Sengupta et al. (2024)는 다중 에이전트 워크플로를 사용해 합성 선호 최적화 데이터셋을 구축하고, 다양한 프롬프트 전략과 파이프라인을 사용하여 LLM을 Judge로 채택했습니다.

유사하게, Li et al. (2024i)는 여러 LLM이 서로 토론하며 응답 품질을 점진적으로 개선하는 방식을 채택했으며, Judge LLM을 생성해 선호 응답을 선택하고 이를 통해 향상된 지침 튜닝(instruction tuning)을 구현했습니다. 생성된 코드를 인간 선호와 정렬시키기 위해, Weyssow et al. (2024)는 LLM-as-a-judge 방법론을 사용해 CodeUltraFeedback라는 선호 코딩 데이터셋(preference coding dataset)을 도입했습니다. 이 합성 데이터셋은 이후 소형 코드 LLM을 지도 학습(SFT)과 Directed Preference Optimization(DPO)을 통해 정렬하고 미세 조정하는 데 사용되었습니다.

최근 Wang et al. (2024e)는 **BPO (Balanced Preference Optimization)**를 제안했으며, GPT-4를 Judge로 활용하여 정렬 과정에서 지식의 깊이와 폭의 균형을 맞추기 위한 합성 쌍별 피드백을 구축했습니다.

5.2.2 자가 평가 (Self-Judging)

자가 평가는 동일한 LLM에서 생성된 선호 신호를 활용하여 모델을 스스로 개선하려는 연구 방향입니다. Yuan et al. (2024e)는 LLM이 Judge 역할을 하며 쌍별 데이터를 생성하는 자가 보상(Self-rewarding) LLM 개념을 처음으로 제안했습니다. 이를 확장하여 Wu et al. (2024a)는 LLM의 Judge 역할 자체를 평가하고 이를 통해 판단 능력을 개선하는 **메타 보상(Meta-rewarding)**을 도입했습니다. 이들의 LLM-as-a-meta-judge 접근법은 모델이 평가 및 지침을 따르는 능력을 크게 향상시켰습니다.

합성 데이터 품질을 향상시키기 위해 Pace et al. (2024)는 Best-of-N과 Worst-of-N 샘플링 전략을 결합한 West-of-N 접근법을 제안했습니다. Lee et al. (2024)는 Judge 역할을 수행할 수 있는 단일 모델을 훈련하기 위해 **Judge-Augmented Supervised Fine-Tuning (JSFT)**을 설계했습니다. 이 Judge 모델을 효과적으로 활용하기 위해, 추론 시 최적의 응답을 선택하는 Self-Rejection by Tournament 방법도 제안했습니다.

위 방법들과 달리, Tong et al. (2024)는 LLM-as-a-judge를 자가 필터링(Self-filtering) 방식으로 활용하여 추론 작업에서 합성 데이터 쌍의 품질을 보장했습니다. 쌍별 판단의 계산 비용을 줄이기 위해, Zhai et al. (2024)는 **자기 선호 언어 모델(Self-preferring Language Models)**을 위한 Ranked Pairing Method를 제안하여 각 응답의 강도를 기준 응답(Baseline)에 대해 측정함으로써 비교 과정을 가속화했습니다.

Liu et al. (2024c)는 메타 랭킹(Meta-ranking)을 도입하여 더 약한 LLM(Sun et al., 2024b)이 신뢰할 수 있는 Judge로 작동하며 신뢰할 수 있는 피드백을 제공하도록 했습니다. 이들은 메타 랭킹 방식을 SFT 이후 학습(Post-SFT Training)에 적용하고, 이를 **카너먼-트버스키 최적화(Kahneman-Tversky Optimization, KTO)**와 결합해 정렬 성능을 향상시켰습니다. Liang et al. (2024c)는 **반복적 자가 강화 패러다임(Iterative Self-Enhancement Paradigm, I-SHEEP)**을 제안하며, 학습 중 LLM-as-a-judge를 활용해 합성 응답을 평가하고, 높은 품질의 쿼리-응답 쌍만을 선택하여 다음 학습 단계에 활용했습니다. Yasunaga et al. (2024)는 LLM-as-a-judge와 데이터 합성을 결합하여 소수의 주석(annotation)으로 인간 정렬 LLM을 성공적으로 구축했습니다.

특정 도메인 또는 속성을 평가하기 위해 LLM-as-a-judge를 활용한 연구도 있습니다. Zhang et al. (2024h)는 응답의 사실성을 판단하기 위해 질문-응답 쌍을 생성하는 자가 평가 메커니즘을 제안했습니다. 이를 통해 자가 주석된 응답을 활용하여 DPO(Directed Preference Optimization) 알고리즘으로 모델을 미세 조정하여 더 나은 사실성을 확보했습니다.

로봇공학에서는 Zeng et al. (2024)가 LLM에서 생성된 자기 랭킹 응답을 통해 보상 함수를 반복적으로 업데이트하여 인간 감독 없이 학습 효율성을 높였습니다. 멀티모달 도메인에서는 Ahn et al. (2024)가 **Iterative Self-Retrospective Judgment (i-SRT)**를 제안했으며, 이는 자가 반성을 활용해 응답 생성 및 선호 모델링을 개선하는 방법입니다.

5.3 검색 (Retrieval)

LLM-as-a-judge는 전통적인 문서 랭킹뿐만 아니라 보다 역동적이고 맥락에 적응하는 Retrieval-Augmented Generation (RAG) 접근법에서도 중요한 역할을 합니다. 전통적인 검색에서는 LLM이 고급 프롬프팅 기술을 활용해 최소한의 라벨링 데이터로 문서의 관련성을 기반으로 순위를 매기는 정확도를 높입니다. RAG 프레임워크는 LLM의 검색 정보를 활용한 콘텐츠 생성 능력을 활용해 복잡하거나 변화하는 지식 통합이 필요한 응용 분야를 지원합니다. 이러한 기술은 검색 작업에서 LLM의 적응성을 강조하며, 기본적인 랭킹에서부터 도메인 특화 및 지식 증강 응용으로 확장됩니다.

5.3.1 전통적인 검색 (Traditional Retrieval)

최근 연구는 정보 검색에서 문서를 랭킹하기 위한 Judge로서 LLM의 역할을 탐구하며, 랭킹 정확도를 높이고 광범위한 학습 데이터 의존도를 줄이는 것을 목표로 하고 있습니다. 예를 들어, Sun et al. (2023)는 GPT-4와 같은 생성적 LLM의 정보 검색 관련 랭킹 가능성을 탐구하며, LLM에 패시지 순서를 지시해 순위 정밀도를 높이는 순열 기반 접근법을 제안했습니다. 이에 더해, Zhuang et al. (2024a)는 세밀한 관련성 라벨을 LLM 프롬프트에 내재화해 모델이 미세한 관련성 변화를 구별하고 보다 정교한 문서 순서를 생성할 수 있는 방법을 소개했습니다.

**리스트형 랭킹 (Listwise Ranking)**에서의 혁신은 Ma et al. (2023)가 제시한 **Listwise Reranker with a Large Language Model (LRL)**로 나타납니다. 이 도구는 작업 특화 학습 데이터 없이도 문서 식별자를 직접 재배열할 수 있습니다. 또한, Zhuang et al. (2024b)는 Setwise 프롬프트 전략을 제안하며, 이는 LLM 추론 빈도와 토큰 사용량을 줄이면서 효율성을 높이는 제로샷 랭킹 방식을 제공합니다.

위치 편향 (Positional Bias) 문제를 해결하기 위해, Tang et al. (2024b)는 순열 자기 일관성(permutation self-consistency) 기법을 도입해 여러 리스트 순서를 평균화하여 순서에 독립적인 랭킹을 도출했습니다. 이 접근법은 LLM 기반 리스트형 랭킹에서 특히 문제가 되는 위치 편향을 효과적으로 줄입니다. 마지막으로, Qin et al. (2024)는 기존 방법의 점별(pointwise) 및 리스트형(listwise) 랭킹 프롬프트의 한계를 비판하며, 복잡한 랭킹 작업을 이해하기에는 전형적인 LLM의 깊이가 부족하다고 지적했습니다. 이를 완화하기 위해, 이들은 **Pairwise Ranking Prompting (PRP)**을 제안하며, 중간 크기의 오픈소스 LLM을 활용해 비용 효율적인 대안을 제공했습니다.

특화된 응용 분야에서도 LLM의 Judge로서의 유용성이 입증되었습니다.

법률 정보 검색: Ma et al. (2024a)는 법률 정보 검색에서 관련성을 판단하기 위해 범용 LLM을 사용하는 Few-shot Workflow를 소개했습니다. 이 모델은 작업을 단계별로 분할하여 전문가의 추론을 통합함으로써 높은 정확도를 달성했습니다.
추천 시스템: Hou et al. (2024)는 LLM의 추천 가능성을 탐구하며, 추천을 조건부 랭킹 작업으로 프레임화했습니다. 이 프레임워크는 사용자 상호작용 기록과 후보 아이템을 함께 고려해 LLM의 편향(예: 인기 있는 항목 선호)을 완화하고 해석적 정확도를 개선했습니다.
검색 시스템: Thomas et al. (2023)는 검색자의 선호를 예측하는 데 있어 LLM이 인간 평가자와 유사한 성능을 발휘한다고 발견했습니다. 이는 고성능 시스템 식별 및 어려운 쿼리 탐지에 LLM이 유용함을 보여줍니다.

이 연구들은 복잡한 검색 작업에서 LLM-as-a-judge의 효과를 입증하며, 다양한 응용 분야에서 더욱 세밀하고 정확한 관련성 평가를 가능하게 합니다.

5.3.2 검색 증강 생성 (Retrieval-Augmented Generation, RAG)

최근 검색 증강 생성(RAG)의 발전은 주석된 데이터셋이나 매개변수 조정 없이 LLM이 자가 평가와 자가 개선을 수행할 수 있는 능력을 탐구하고 있습니다(Chen et al., 2024e). Li and Qiu (2023)는 LLM의 추론 능력을 자율적으로 향상시키는 Memory-of-Thought (MoT) 프레임워크를 소개했습니다. 이 두 단계 자가 반성 모델은 첫 번째 단계에서 라벨이 없는 데이터셋에 대해 높은 신뢰도의 추론 결과를 생성하고 이를 메모리로 저장합니다. 테스트 단계에서는 모델이 현재 질문과의 관련성을 판단하여 가장 관련성이 높은 메모리를 데모로 사용합니다.

유사한 접근법으로 Tang et al. (2024a)는 Self-Retrieval을 제안하며, 정보 검색(IR) 기능을 단일 LLM 내에서 통합하고 자연어 색인화를 활용해 코퍼스를 내재화합니다. 이 방법은 검색을 문서 생성 및 자가 평가 과정으로 변환하며, 단일 모델 내에서 완전한 엔드투엔드 IR 워크플로를 구현합니다. 또한, Asai et al. (2024)는 **SELF-RAG (Self-Reflective Retrieval-Augmented Generation)**를 도입하여, 검색 및 자가 반성 주기를 통해 LLM 응답의 품질과 사실성을 향상시켰습니다. Reflection Tokens를 사용해 적응형 응답을 유도하며, SELF-RAG는 과제별 요구사항에 따라 모델이 동적으로 응답을 판단하고 조정할 수 있게 합니다.

질문 응답(QA) 도메인에서는, LLM이 실시간으로 응답의 관련성, 품질, 유용성을 평가하는 역할을 수행하고 있습니다. Rackauckas et al. (2024)는 실제 사용자 상호작용과 도메인별 문서에서 생성된 합성 쿼리를 활용하는 LLM 기반 평가 프레임워크를 소개했습니다. 이 프레임워크에서는 LLM이 Judge 역할을 수행하며, 검색된 문서를 평가하고 RAGElo라는 Elo 기반 자동 경쟁 방식을 통해 RAG 에이전트 변형을 순위 매깁니다. 이는 QA 시스템의 품질 관리에 확장 가능한 솔루션을 제공합니다.

또한, Zhang et al. (2024b)는 LLM이 열린 도메인 QA에서 **관련성(relevance)**과 **유용성(utility)**을 평가할 수 있는 능력을 광범위하게 연구했습니다. 연구 결과, LLM은 두 개념을 효과적으로 구별할 수 있으며, 반사실적(passages)을 제공받을 때도 높은 적응력을 보였습니다. 이러한 유용성 평가 능력은 LLM이 평가 중에 더 세밀하고 맥락적으로 관련성 높은 응답을 제공할 수 있게 합니다.

특화된 도메인 RAG 시스템은 LLM이 복잡한 쿼리를 해결하기 위해 특화된 지식 구조를 통합할 수 있는 잠재력을 보여줍니다.

BIORAG: Wang et al. (2024b)는 계층적 지식 구조를 활용해 벡터 검색을 향상시키는 BIORAG 프레임워크를 소개했습니다. BIORAG는 자가 평가 검색기를 채택하여 수집된 정보의 적합성과 관련성을 지속적으로 판단하며, 검색된 문서의 정확성을 높였습니다.
DALK: Li et al. (2024c)는 LLM과 알츠하이머병(AD) 관련 과학 문헌에서 유도된 지속적으로 진화하는 지식 그래프를 결합한 **DALK (Dynamic Co-Augmentation of LLMs and Knowledge Graphs)**를 제안했습니다. 이 시스템은 자가 인식 지식 검색 방법을 사용하여 노이즈를 필터링하며, AD 관련 쿼리에서 LLM의 추론 성능을 강화합니다.
SelfBioRAG: Jeong et al. (2024)는 생물의학 응용을 위해 RAG 원칙을 적용한 SelfBioRAG 프레임워크를 제안했습니다. SelfBioRAG는 LLM을 사용해 최적의 증거를 선택하고, 선택된 증거와 인코딩된 지식을 기반으로 응답을 생성합니다.
LLM-as-a-Judge 메모리 활용: Déjean (2024)는 LLM의 매개변수 메모리에서 검색 결과를 추출하기 위해 LLM-as-a-judge를 활용한 방법을 도입했습니다.

이러한 연구는 LLM-as-a-judge가 검색 증강 생성 도메인에서 사실성과 적합성을 개선하며, 다양한 응용 분야에 걸쳐 검색 성능을 강화할 수 있음을 보여줍니다.

5.4 추론 (Reasoning)

LLM의 추론 능력을 개발하면 모델의 잠재력을 확장할 수 있으며, 단순히 규모 확장(scaling laws)만으로는 이러한 잠재력을 완전히 드러낼 수 없습니다. 추론은 복잡한 문제를 해결하고, 결정을 내리며, 정확하고 맥락에 맞는 응답을 제공하는 LLM의 능력에 직접적으로 영향을 미치는 중요한 측면입니다. 최근 연구는 LLM-as-a-judge를 활용해 추론 경로를 선택하는 방법(섹션 5.4.1)과 외부 도구를 활용하는 방법(섹션 5.4.2)에 초점을 맞추고 있습니다.

5.4.1 추론 경로 선택 (Reasoning Path Selection)

Wei et al. (2022b)는 모델이 단계별로 추론 과정을 생성하도록 유도하기 위해 Chain-of-Thought (CoT) 프롬프트를 도입했습니다. 더 복잡한 인지 구조(Yao et al., 2023a; Hao et al., 2023)가 LLM의 추론 능력을 강화하기 위해 제안되었지만, LLM이 따를 합리적이고 신뢰할 수 있는 추론 경로나 궤적을 선택하는 문제는 여전히 중요한 과제입니다. 이를 해결하기 위해 많은 연구에서 LLM-as-a-judge를 채택했습니다.

샘플 수준 선택
일부 연구는 추론 과정에서 샘플 수준 선택에 초점을 맞추고 있습니다. Gao et al. (2023a)는 후보 전략을 검증 데이터셋에서 추가로 평가하기 위한 **전략 평가자(Strategy Evaluator)**를 도입했습니다. Kawabata와 Sugawara (2024)는 **REPS (Rationale Enhancement through Pairwise Selection)**를 제안하며, LLM의 쌍별 자기 평가를 통해 유효한 근거를 판단 및 선택하고, 이를 기반으로 검증기를 학습시켰습니다.

**다양성(Diversity)**도 중요한 문제입니다. Lahoti et al. (2023)는 LLM이 다양성 개념을 이해하고 응답에서 다양성이 부족한 측면을 식별할 수 있음을 발견했습니다. 여러 비판(critiques)을 선택하고 집계함으로써, LLM은 반복적인 비판 및 수정 과정 없이도 유사한 성과를 달성할 수 있었습니다.

다중 에이전트 협업 프레임워크에서는 Liang et al. (2023)이 여러 에이전트 간의 토론을 촉진하는 Multi-Agent Debating (MAD) 패러다임을 제안했습니다. 이들은 Judge LLM을 활용해 토론 과정의 끝에서 가장 합리적인 응답을 최종 출력으로 선택했습니다. 유사하게, Li et al. (2024b)는 계층 기반 다중 에이전트 협업에서 Judge LLM을 활용해 높은 품질과 합리적인 응답을 선택하여 시스템의 토큰 활용 효율성을 크게 향상시켰습니다.

단계 수준 선택
추론 과정에서 Judge LLM을 **과정 보상 모델(Process Reward Model, PRM)**로 활용해 상태 점수를 평가하는 연구도 많습니다. Creswell et al. (2023)는 추론 과정을 **선택(Selection)**과 추론(Inference) 단계로 분해했습니다. 선택 단계에서 LLM 자체를 활용해 각 잠재적 추론 경로를 판단 및 평가하여 다음 추론 단계에 적합한 경로를 선택했습니다.

Xie et al. (2024b)는 Kwai-STaR 프레임워크를 제안하며, 수학적 추론에서 상태 전환 추론자로서 LLM을 전환시켜 스스로 최적의 추론 상태를 판단하고 선택하도록 했습니다. Lightman et al. (2023)는 LLM을 PRM으로 훈련시켜 추론 단계에서 Best-of-N 샘플링 전략을 수행했습니다. 이를 확장하여 Setlur et al. (2024)는 **Process Advantage Verifiers (PAVs)**를 제안하며, 미래의 올바른 응답 생성 가능성 변화를 기반으로 보상을 생성했습니다.

고급 인지 구조를 시뮬레이션하는 연구도 있습니다. Hao et al. (2023)는 LLM을 세계 모델(World Model)로 활용해 환경 상태를 시뮬레이션하고 **Monte Carlo Tree Search (MCTS)**를 수행하여 신중한 경로 선택이 필요한 작업에서 성능을 향상시켰습니다. Besta et al. (2024)는 LLM이 생성한 출력을 임의의 그래프 구조로 간주하며, 각 추론 상태에서의 논리적 추론과 일관성을 체계적으로 평가할 수 있는 프레임워크를 제안했습니다.

Yao et al. (2023a)는 **Tree-of-Thoughts (ToT)**를 제안하며, 각 생각(Thought)을 문제 해결을 위한 중간 단계로 간주했습니다. 이 접근법은 추론을 단계별로 분해하고, 각 상태에서 자가 평가 및 진행 상황을 판단하며, 검색 알고리즘을 사용해 전진 및 되돌아보기를 통해 생각 경로를 평가합니다.

마지막으로, Ankner et al. (2024), Yu et al. (2024b), Wang et al. (2024d) 등은 비판 기반 LLM Judge를 훈련하며, 세밀한 언어 피드백을 제공해 추론 과정을 향상시키는 연구를 수행했습니다.

5.4.2 외부 도구와 함께하는 추론 (Reasoning with External Tools)

Yao et al. (2023b)는 LLM이 추론 경로와 작업별 행동을 교차적으로 생성하는 방식을 처음으로 제안했습니다. **추론 경로(reasoning traces)**는 모델이 행동 계획을 판단하고 업데이트하도록 돕는 반면, **행동(actions)**은 외부 소스와 상호작용할 수 있게 합니다. 이 접근법은 모델이 도구를 효과적으로 활용하여 정확한 정보를 생성하도록 돕습니다.

Yang et al. (2023)는 Auto-GPT를 도입해 도구 사용을 위한 LLM-as-a-judge를 활용하여 더 정확한 정보를 제공했습니다. LLM에 다양한 복잡한 외부 도구를 장착함으로써, 모델은 더 다재다능하고 강력해지며, 어떤 도구를 사용할지 판단하고 추론하는 능력을 통해 계획 성능을 향상시켰습니다. Sha et al. (2023)는 복잡한 자율 주행 시나리오와 같이 인간 상식을 요구하는 문제에서 LLM을 의사결정 구성 요소로 활용하며, 추론 및 판단 능력을 탐구했습니다. Zhou et al. (2024c)는 자가 발견(self-discovery) 프로세스를 도입해, LLM이 주어진 쿼리를 기반으로 판단을 수행하고, 다음 추론 단계에 가장 적합한 추론 구조를 선택하도록 했습니다.

모델 및 API 선택 문제
LLM이 다양한 도구를 활용하여 뛰어난 판단 능력을 보여주었지만, 어떤 모델이나 API를 사용할지 선택하는 문제는 성능과 비용 간의 절충(trade-off)을 포함합니다. 더 강력한 모델은 효과적이지만 비용이 더 많이 들며, 성능이 낮은 모델은 더 비용 효율적입니다. 이 딜레마를 해결하기 위해 Ong et al. (2024)는 판단 과정에서 강력한 LLM과 약한 LLM 사이를 동적으로 선택할 수 있는 **라우팅 모델(Routing Model)**을 제안했습니다. 이를 통해 비용과 응답 품질 간의 균형을 맞추는 것을 목표로 했습니다.

효율성을 고려한 또 다른 접근법으로 Zhao et al. (2024b)는 DiffAgent를 도입했습니다. 이 에이전트는 사용자 지정 프롬프트를 사용해 다양한 텍스트-이미지 API를 판단하고 선택하도록 설계되었습니다. DiffAgent의 판단은 인간 선호와 더 잘 일치하며, 전통적인 API 선택 방법보다 뛰어난 성능을 보여줬습니다.

이러한 연구는 LLM이 외부 도구와 상호작용하며 추론과 판단을 향상시키는 데 있어 중요한 역할을 할 수 있음을 강조합니다. LLM의 도구 사용 능력은 다양한 응용 분야에서 더 복잡하고 정확한 작업 수행을 가능하게 합니다.

6. 벤치마크: LLM-as-a-judge 평가 (Benchmark: Judging LLM-as-a-judge)

대형 언어 모델(LLMs)을 Judge로 평가하려면, 이 작업의 다면적인 특성을 포착할 수 있는 강력하고 목적 지향적인 벤치마크가 필요합니다. 기존 벤치마크는 다음과 같은 차원으로 분류됩니다: 일반 성능, 편향 정량화, 도메인 특화 성능, 멀티모달 평가, 다국어 능력, 평가 지침 준수, 취약성 평가, 어려운 과제 성능. 이러한 분류는 LLM-as-a-judge 평가 프레임워크의 다양한 목표를 보여주며, 설계, 범위, 영향력을 분석하는 데 구조적인 관점을 제공합니다. 표 2는 LLM-as-a-judge를 위한 벤치마크 모음을 보여줍니다.

6.1 일반 성능 (General Performance)

일반 성능 벤치마크는 다양한 작업에서 LLM의 전반적인 역량을 평가하는 것을 목표로 합니다. 이러한 벤치마크는 주로 인간 판단과의 일치도, 정확도, 상관관계를 측정합니다. 주요 사례는 다음과 같습니다:

MT-Bench 및 Chatbot Arena (Zheng et al., 2023): 대화 환경에서 일관성, 편향, 오류와 같은 메트릭을 사용하여 평가를 수행하며, 위치 편향(position bias), 장황함(verbosity), 자기 강화 경향(self-enhancement tendencies) 등의 특정 편향도 탐구합니다.
JUDGE-BENCH (Tan et al., 2024a), DHP (Wang et al., 2024i), RewardBench (Lambert et al., 2024), SOS-BENCH (Penfever et al., 2024), JuStRank (Gera et al., 2024): Cohen’s kappa, Discernment Score, 정규화된 정확도(normalized accuracy) 등의 메트릭을 사용하여 더 큰 규모에서 LLM 성능을 벤치마크합니다.
LLM-judge-eval (Wei et al., 2024a): 요약 및 정렬 작업을 평가하며, 플리핑 노이즈(flipping noise), 길이 편향(length bias)과 같은 추가 메트릭을 포함합니다.

6.2 편향 정량화 (Bias Quantification)

LLM 판단에서의 편향 완화는 공정성과 신뢰성을 보장하는 데 중요합니다(Schroeder and Wood-Doughty, 2024). 주요 벤치마크는 다음과 같습니다:

EvalBiasBench 및 CALM (Ye et al., 2024a): 정렬 및 적대적 조건에서의 강건성에서 발생하는 편향을 정량화합니다.
Shi et al. (2024a): 위치 편향(position bias)과 질문 응답 작업에서의 동의 비율(percent agreement)을 평가합니다.

6.3 어려운 과제 성능 (Challenging Task Performance)

어려운 과제를 위한 벤치마크는 LLM 평가의 한계를 확장합니다. 예를 들어:

Arena-Hard Auto (Li et al., 2024k), JudgeBench (Tan et al., 2024a), Yuan et al. (2024b): 대화형 QA와 다양한 추론 작업에서 LLM의 성능을 기반으로 어려운 질문을 선택합니다.
CALM (Ye et al., 2024a): 분리성(separability), 동의도(agreement), 해킹된 정확도(hacked accuracy)와 같은 메트릭을 사용하여 수동으로 식별된 어려운 데이터셋에서 성능을 평가합니다.

6.4 도메인 특화 성능 (Domain-Specific Performance)

도메인 특화 벤치마크는 특정 맥락에서 LLM의 효과를 평가합니다.

Raju et al. (2024): 코딩, 의료, 금융, 법률, 수학과 같은 특정 도메인에서 Brier 점수와 같은 메트릭을 활용하여 분리성과 동의도를 측정합니다.
CodeJudgeEval (Zhao et al., 2024a): 코드 생성 평가를 위해 실행 중심 메트릭(정확도 및 F1 점수)을 사용합니다.
이 아이디어는 코드 요약 및 생성 평가(Wu et al., 2024b; Yang et al., 2024; Tong and Zhang, 2024)로 확장되었습니다.

6.5 기타 평가 차원 (Other Evaluation Dimensions)

일반 성능 및 편향 정량화를 넘어, LLM-as-a-judge를 평가하는 데 필수적인 추가 차원을 다루는 벤치마크도 있습니다:

멀티모달 (Multimodal): MLLM-as-a-judge (Chen et al., 2024a)는 인간 판단과의 일치도, 평가 분석, 환각 탐지에 중점을 두고 멀티모달 작업을 평가합니다.
다국어 (Multilingual): MM-EVAL (Son et al., 2024b) 및 KUDGE (Son et al., 2024a)는 다국어 및 비영어 성능을 평가하며, 특히 어려운 시나리오에서 정확도와 상관관계를 측정합니다.
평가 지침 준수 (Instruction Following): Murugadoss et al. (2024): 특정 평가 지침을 준수하는 정도를 평가하며, 상관 메트릭을 사용해 성능을 정량화합니다.

이러한 벤치마크는 LLM-as-a-judge의 다양한 측면을 평가하고, 모델 설계 및 성능 개선에 중요한 통찰을 제공합니다.

'논문' 카테고리의 다른 글

[논문 리뷰] 48. Knowledge Graph-Guided Retrieval Augmented Generation (0)	2025.03.03
[논문 리뷰] 45. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (1)	2025.01.14
[논문 리뷰] 43. LLMs cannot find reasoning errors, but can correct them given the error location (2)	2024.12.30
Retrieval-Augmented Generation for Large Language Models: A Survey (2)	2024.12.09
[논문 리뷰] 41. RouteLLM: Learning to Route LLMs with Preference Data (1)	2024.12.02

ABOUT ME

Memorize Memorize

먼저 입력 및 출력 관점에서 자세한 정의를 제시

1) "무엇을 판단할 것인가"

2) "어떻게 판단할 것인가"

3) "어디에서 판단할 것인가"

라는 세 가지 차원에서 LLM-as-a-judge를 탐구하기 위한 포괄적인 분류 체계를 소개

Helpfulness (유용성)

Harmlessness (무해성)

Reliability (신뢰성)

사실성 (Factuality)

불확실성 판단 (Uncertainty Judgment)

Relevance (적합성)

LLM 기반 적합성 평가

RAG(Retrieval-Augmented Generation)에서의 적합성

멀티모달 응용에서의 적합성 평가

Feasibility (실현 가능성)

LLM을 활용한 실현 가능성 평가 사례

Methodology

1) Tuning

2) Prompting

6.1 일반 성능 (General Performance)

6.2 편향 정량화 (Bias Quantification)

6.3 어려운 과제 성능 (Challenging Task Performance)

6.4 도메인 특화 성능 (Domain-Specific Performance)

6.5 기타 평가 차원 (Other Evaluation Dimensions)

'논문' 카테고리의 다른 글

티스토리툴바

ABOUT ME

먼저 입력 및 출력 관점에서 자세한 정의를 제시

1) "무엇을 판단할 것인가"

2) "어떻게 판단할 것인가"

3) "어디에서 판단할 것인가"

라는 세 가지 차원에서 LLM-as-a-judge를 탐구하기 위한 포괄적인 분류 체계를 소개

Helpfulness (유용성)

Harmlessness (무해성)

Reliability (신뢰성)

사실성 (Factuality)

불확실성 판단 (Uncertainty Judgment)

Relevance (적합성)

LLM 기반 적합성 평가

RAG(Retrieval-Augmented Generation)에서의 적합성

멀티모달 응용에서의 적합성 평가

Feasibility (실현 가능성)

LLM을 활용한 실현 가능성 평가 사례

Methodology

1) Tuning

2) Prompting

6.1 일반 성능 (General Performance)

6.2 편향 정량화 (Bias Quantification)

6.3 어려운 과제 성능 (Challenging Task Performance)

6.4 도메인 특화 성능 (Domain-Specific Performance)

6.5 기타 평가 차원 (Other Evaluation Dimensions)

'논문' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바