[논문 리뷰] 50. Improving Factuality and Reasoning in Language Models through Multiagent Debate

카테고리 없음

[논문 리뷰] 50. Improving Factuality and Reasoning in Language Models through Multiagent Debate

정일균 2025. 3. 29. 19:02

대규모 언어 모델(LLMs)은 최근 몇 년 동안 언어 생성, 이해, 그리고 few-shot 학습에서 놀라운 성능을 보여주고 있다.
많은 연구들은 검증(verification), 자기 일관성(self-consistency), 혹은 중간 계산 메모(scratchpads) 등의 프롬프트 기법을 통해 이러한 성능을 어떻게 더 향상시킬 수 있을지를 탐구해왔다.

본 논문에서는 이러한 기존 접근들과 보완적인 방법으로, 여러 개의 언어 모델 인스턴스들이 각자의 응답과 추론 과정을 제안하고,
여러 라운드에 걸쳐 토론을 진행하여 공통된 최종 정답에 도달하는 방식을 제안한다.

우리의 실험 결과는 이 방식이 수학적 추론과 전략적 추론 과제 전반에서 모델의 성능을 유의미하게 향상시킨다는 사실을 보여준다.

또한, 우리의 접근 방식은 사실 오류(fallacious answers) 및 환각(hallucinations)을 줄임으로써, 생성된 응답의 사실성(factual validity)을 개선한다는 것도 보여준다.

우리 방법은 기존의 블랙박스 언어 모델에도 바로 적용 가능하며, 우리가 실험한 모든 과제에서 동일한 절차와 동일한 프롬프트를 사용하였다.

결론적으로, 우리의 연구는 이러한 “마음의 사회(Society of Minds)”적 접근 방식이 LLMs의 능력을 상당히 향상시키고, 언어 생성 및 이해에서의 더 나아간 돌파구를 여는 데 중요한 잠재력이 있음을 시사한다.

대규모 언어 모델(LLMs)은 최근 몇 년 동안 언어 생성, 이해, 그리고 few-shot 학습에 있어 놀라운 성능을 보여주고 있다.
이러한 방법들은 인터넷상의 방대한 텍스트 코퍼스로부터 학습되었으나, 그 과정에서 추출된 자연어의 품질이나 정확성은 보장되지 않는다.
따라서 현재의 모델들은 사실을 자신 있게 환각(hallucinate)하거나, 비현실적인 추론 경로로 점프하는 문제를 보이기도 한다.

최근에는 언어 모델의 사실 정확도(factual accuracy)와 추론 능력(reasoning)을 개선하려는 연구들이 활발히 진행되고 있다.
이러한 연구들은 few-shot 또는 zero-shot chain-of-thought 시연, 검증(verification), 자기 일관성(self-consistency), 혹은 중간 scratchpad 생성과 같은 프롬프트 기반 기법들을 포함한다.

우리는 이러한 기법들이 단일 모델 인스턴스에만 적용되는 것에 주목한다.
이에 반해, 우리는 ‘마음의 사회(The Society of Mind)’(Minsky, 1988)와 멀티 에이전트 환경(multiagent settings)에서 영감을 받아 보완적인 접근 방식을 제안한다.

이 방식은 다수의 언어 모델 인스턴스들(또는 에이전트)이 각자의 응답과 추론 과정을 제안하고, 이를 공동으로 토론하여 하나의 공통된 정답에 도달하는 방식이다.

보다 구체적으로는, 하나의 질문이 주어졌을 때, 여러 개의 언어 모델 인스턴스들이 각자 독립적으로 후보 응답을 생성한다.
그 후, 각 모델 인스턴스는 다른 모델들의 응답을 읽고 평가하며, 이러한 내용을 바탕으로 자신의 응답을 갱신한다.
이 과정은 여러 라운드에 걸쳐 반복된다.

이러한 과정은 모델이 자신의 내부 비판자(inner critic)와 다른 에이전트들의 응답 모두와 일관된 답변을 생성하게 유도한다.
이렇게 형성된 모델 집단(quorum)은 여러 개의 추론 경로와 가능한 답변을 동시에 유지하면서, 최종적으로 정제된 하나의 정답을 제안할 수 있게 된다.

우리의 실험 결과, 이러한 토론 기반 접근(debate approach)은 zero-shot chain-of-thought(Kojima et al., 2022), reflection(Shinn et al., 2023; Madaan et al., 2023)과 같은 단일 모델 기반 기준선을 여러 종류의 6가지 추론, 사실성, 질의응답 태스크에서 능가함을 확인하였다.

모델 성능을 극대화하기 위해서는 다수의 모델 에이전트와 다수의 토론 라운드가 모두 중요하다는 것을 발견했다.

초기 질문이 주어졌을 때, 동일한 모델 계열(예: ChatGPT)임에도 불구하고 각 인스턴스는 다양한 응답을 생성하는 경향이 있었으며,
우리는 또한 다른 모델 유형 간의 조합(예: ChatGPT와 Bard)도 실험하였다.

이후 토론과 상호 평가를 거친 결과, 모델들은 대부분 더 정확한 공통된 정답으로 수렴하게 된다.

또한 토론을 통해 생성된 응답은, 모델 내부적으로 불확실한 사실들을 포함하는 경향이 낮았고, 불확실한 내용은 토론 중 에이전트들 사이에서 논란이 되어 최종 응답에서 제거되는 경향이 있었다

LLMs가 사실 기반 전기 정보를 어떻게 생성하고, 토론을 통해 더 정확한 내용으로 수렴하는지를 설명하는 사례예요.

🧾 Prompt (프롬프트)
“David S. Johnson의 공헌과 업적을 강조하여 불릿 포인트 형식의 전기를 작성하시오.각 사실은 줄바꿈으로 구분하시오.”

📚 인물: David S. Johnson
→ 이 인물은 이론 컴퓨터 과학, 알고리즘, 최적화 분야에서 중요한 업적을 남긴 컴퓨터 과학자입니다.

🧠 구조
Agent 1과 Agent 2가 서로 독립적으로 전기 응답을 생성합니다.두 라운드에 걸쳐 자신의 주장을 갱신하거나 유지하며 응답을 업데이트합니다.각 불릿 항목에 대해 정답 여부가 체크(✔️/❌) 되어 있습니다.

🔄 Round 1 요약
🟥 Agent 1
학력 정보 (Dartmouth, MIT) → ❌ (사실 오류)ACM Turing Award 수상 (2013) → ❌ (Johnson은 이 상을 받지 않음)연구 관심 분야 (최적화, 알고리즘 등) → ✔️
🟩 Agent 2
직업 설명 (미국 컴퓨터 과학자) → ✔️국립공학아카데미(National Academy of Engineering) → ✔️ACM SIGMOD + Knuth Prize 수상 → ❌ (SIGMOD 수상은 사실 아님)
➡️ 이 시점에서 양 에이전트 모두 일부 사실 오류가 포함된 정보를 제공함

🔄 Round 2 요약
🟥 Agent 1
직업 설명 (컴퓨터 과학자 및 수학자) → ✔️National Academy of Engineering (2006) → ✔️ACM Turing Award + Knuth Prize → ❌ (Turing Award 수상자 아님)
🟩 Agent 2
직업 설명 (미국 컴퓨터 과학자) → ✔️소속 기관 목록 (Columbia, AT&T, Cornell) → ❌ (Cornell은 부정확한 정보)연구 분야 설명 (네트워크 최적화, 조합 최적화 등) → ✔️

📌 Figure 12의 핵심 목적
LLM들이 초기에는 환각(hallucination)된 정보를 포함하더라도,토론을 거치며 더 일관된 응답을 구성해내는지 여부를 보여주기 위한 사례입니다.
하지만:
단지 “일관성”만 확보되었을 뿐, 사실성이 완벽히 확보된 것은 아님 → 다수의 응답이 틀릴 수도 있음

✅ 결론
Multiagent debate는 전기 생성의 사실성(factuality)을 일부 개선할 수 있지만,모든 오류를 교정하지는 못하며, 오히려 새로운 오류가 유입될 수 있음하지만 모델 간 상호 참조와 교차검토 구조가 일관성과 정보의 수렴을 유도하는 데는 효과적임

마지막으로, 우리는 토론이 단지 올바른 정답을 증폭하는 것에 그치지 않고, 모든 모델이 처음엔 오답을 제시했더라도, 토론 과정을 거쳐 결국 정답에 도달하는 사례들도 다수 존재함을 발견하였다

우리는 모든 태스크에서 동일한 방법론과 프롬프트 템플릿을 사용하며, 언어 모델의 출력에 대한 블랙박스 접근만으로 작동한다—
즉, 확률, 그래디언트 등의 내부 정보는 필요 없다.
이는 본 기법이 일반적인 공개 LLM 인터페이스에 바로 적용 가능함을 의미한다.

또한 본 방법은 retrieval 기반 방식이나 프롬프트 엔지니어링 같은 기존 기법과 독립적으로 병행 적용 가능하다.
(실제로 본 논문에서는 zero-shot chain-of-thought과 결합하여 사용하였다.)

물론 토론 과정은 여러 모델 인스턴스와 라운드를 요구하기 때문에 계산 비용이 높지만, 그에 상응하는 성능 향상을 얻을 수 있으며,
이를 통해 생성된 응답은 모델의 추가 학습 데이터로도 사용 가능해, 결국 **자기 개선 루프(self-improvement loop)**를 만들 수 있다.

우리는 우리의 접근 방식이 사실 정확도(factual accuracy)에 미치는 영향을 평가하기 위해, **저명한 컴퓨터 과학자들의 전기(biography)**를 평가하는 새로운 벤치마크와 데이터셋도 도입하였다.

실험 결과, 최신 언어 모델은 전기를 생성할 때 사실과 다른 내용(hallucination)을 자주 생성하며, 기관명이나 날짜를 잘못 표현하는 경우가 많았다.

또한 이러한 오류는 모델 인스턴스 간에도 일관되지 않게 발생하는데, 모델들에게 상호 합의를 요구함으로써 이러한 불일치한 정보는 제거되거나 정정될 수 있다.

🧾 정리하면, 본 연구의 기여는 다음과 같다:

**멀티에이전트 토론(Multiagent Debate)**을 제안하고, → 이를 통해 언어 모델의 추론 정확도 향상을 실증하였다.
이 토론 구조가 사실성(factuality) 향상에도 효과적임을 보였으며, → 언어 모델이 어려워하는 사실 정확성 평가 벤치마크를 제시하였다.
마지막으로, 에이전트 수, 토론 라운드 수, 프롬프트 구성 등 다양한 설정에서 → 본 토론 절차가 언어 생성의 성능 향상에 어떻게 기여하는지를 평가하였다.

Multiagent Debate를 통한 언어 생성

우리는 본 장에서 **multiagent debate(다중 에이전트 토론)**을 통해 언어 응답을 생성하는 방법을 제안한다.
2.1절에서는 이 접근 방식의 개요를 설명하고,
2.2절에서는 토론 과정에서 **합의(convergence to consensus)**가 어떻게 이루어지는지를 논의한다.
이 접근 방식의 전체 흐름은 Figure 2에 제시되어 있다.

2.1. 다중 에이전트를 통한 언어 생성 (Multiagent Language Generation)

예를 들어 시험에서 다음 수학 문제를 푸는 과정을 생각해 보자:
“한 변의 길이가 3, 4, 5인 삼각형의 넓이는 얼마인가?”

한 가지 접근에서는 이 삼각형이 직각삼각형이라는 것을 인지하고
→ 넓이를 0.5 × 3 × 4 = 6으로 바로 계산할 수 있다.
정확한 답을 얻었는지 확인하기 위해,
→ 다른 방법으로 **코사인 법칙(Law of Cosines)**을 이용해 각도 θ를 구한 뒤,
→ 넓이를 0.5 × 3 × 4 × sin(θ) 방식으로 다시 계산할 수도 있다.

이 두 계산이 동일한 결과를 준다면, 그 답이 정확하다는 확신이 높아진다.
반대로, 서로 다른 결과를 낸다면, 우리는 각 접근의 **추론 과정과 전제 조건을 정밀히 비교(mental debate)**하며
→ 더 일관된 결론을 찾기 위해 해법을 조정하게 된다.

같은 맥락에서, 어떤 역사적 인물의 전기를 작성할 때를 생각해 보자.
사실성을 확보하기 위해 우리는 여러 출처를 참고할 것이다.
→ 모든 출처가 동일한 내용을 제공한다면, 그 사실에 대한 확신이 높아진다.
→ 반대로 출처 간에 상이한 정보가 있다면, 우리는 교차 검증을 통해 최종적으로 신뢰할 수 있는 내용을 정제해야 한다.

이러한 **다중 경로 추론(multi-threaded reasoning)**과
**다중 출처 사실 검증(multi-source factuality checking)**을 모방하기 위해,
우리는 **다중 LLM 인스턴스 간 토론 절차(multiagent debate procedure)**에 기반하여 답변을 생성하는 방식을 제안한다.

하나의 질문이 주어지면,
**동일한 언어 모델의 여러 복사본(agents)**이 각자 답변을 생성한다.
각 응답은 하나의 추론 경로 또는 정보 출처가 되며,
다른 에이전트는 이를 재검토하여 더 일관된 최종 답변을 도출하게 된다.

초기 응답이 생성되면, 우리는 에이전트 간 토론 라운드를 시작한다.

다른 에이전트들의 응답이 context로 제공되며,
각 에이전트는 이를 바탕으로 자신의 응답을 갱신하도록 요청된다.

즉, 각 언어 에이전트는 다음 두 가지 역할을 수행한다:

다른 에이전트들의 응답을 검토하고 평가
이를 반영하여 자신의 응답을 개선하고 수정

이러한 과정을 여러 라운드에 걸쳐 반복함으로써 성능 향상을 도모한다.
이 과정은 각 모델이 **자신의 판단(opinion)**과 다른 에이전트의 의견 모두를 활용하여
더 정확한 답변을 생성할 수 있도록 한다.
→ 심지어 처음에는 모든 에이전트가 오답을 냈더라도, 토론을 통해 정답에 도달할 수 있다(Figure A19, A20).

보다 구체적으로는,

우리는 먼저 각 에이전트에게 문제 해결을 개별적으로 요청한다.
그런 다음, 각 에이전트에게 Figure 3에 제시된 **합의 프롬프트(consensus prompt)**를 제공한다.
→ 이 프롬프트는 다른 에이전트들의 응답을 바탕으로 응답을 갱신하라고 요청하는 구조이다.

이러한 합의 프롬프트는 반복적으로 사용되며,
업데이트된 응답들이 다음 라운드로 전달된다.

전체 절차는 Figure 2에 요약되어 있다.

또한 우리의 방법은 기존의 프롬프트 기반 언어 모델 기법들과는 독립적으로 작동한다.
질문이 주어졌을 때, 우리는 기존 프롬프트 설계 기법들을 추가로 사용하여
→ 모델로부터 더 정교한 응답을 이끌어낼 수 있다.
Figure 6에서는 이러한 기존 기법들과의 시너지 효과를 보여주며,
본 논문에서는 zero-shot chain-of-thought 추론 기법도 함께 적용하였다.

2.2. 토론에서의 합의 수렴 (Consensus in Debates)

토론을 여러 라운드 거친 후,
언어 모델 에이전트들이 하나의 최종 정답에 수렴할 수 있다는 것을 어떻게 보장할 수 있을까?

이론적으로 토론은 multiagent 게임으로 볼 수 있으며,
→ 항상 수렴을 보장하지는 않는다.

하지만 경험적으로는,
우리는 언어 모델들이 여러 라운드의 토론 끝에 하나의 공동 정답으로 수렴함을 확인하였다(Figure 4).

우리는 프롬프트의 설계 방식에 따라 토론 길이를 조절할 수 있음도 발견하였다.

예: 모델이 자기 출력을 얼마나 신뢰할지를 프롬프트를 통해 조절하면
→ 토론이 얼마나 빨리 수렴할지도 달라질 수 있다.

Figure 3에서는 이러한 프롬프트 설계 예시를,
Figure 10에서는 그 효과를 시각화하였다.

전반적으로, 우리는 언어 모델 에이전트들이 **상대적으로 "순응적(agreeable)"**임을 관찰하였다.
→ 이는 인스트럭션 튜닝(instruction tuning) 또는
**인간 피드백 기반 강화학습(RLHF, Ouyang et al., 2022)**의 결과일 수 있다.

만약 마지막까지 에이전트 간 불일치가 존재할 경우,
→ 우리는 **최종적으로 다수결(majority vote)**을 통해 정답을 선택한다.

3. 실험 (Experiments)

우리는 본 실험을 통해 multiagent debate (다중 에이전트 토론) 기법을 평가하며 다음 세 가지 질문에 답하고자 한다:

다중 에이전트 토론이 추론 능력을 얼마나 향상시키는가?
다중 에이전트 토론이 사실 정확성(factual validity)을 얼마나 개선하는가?
다중 에이전트 토론의 성능을 높이는 데 있어 어떤 설계 요소들이 중요한가?

3.1. 다중 에이전트 토론을 통한 추론 성능 향상

우리는 먼저, 다중 에이전트 토론이 언어 모델의 기본적인 추론 과정을 얼마나 향상시키는지를 평가한다.

✅ 평가 과제 (Tasks)

우리는 난이도 순으로 구성된 세 가지 추론 과제를 실험 대상으로 사용하였다:

산술(Arithmetic)
→ 덧셈, 곱셈, 뺄셈이 포함된 6개의 두 자리 숫자로 구성된 수식을 정확하게 계산할 수 있는지 평가.
예: 12 + 15 × 21 + 0 - 3 × 27의 결과는?
GSM8K
→ 초등학교 수준의 수학 추론 문제를 다루는 대표 데이터셋 (Cobbe et al., 2021).
모델은 문제의 문맥과 논리 흐름을 이해하고 정답을 도출해야 함.
체스(Chess)
→ 체스 전략 추론 능력을 평가.
두 체스 그랜드마스터의 경기에서 첫 14수(PGN 형식)가 주어졌을 때,
모델이 다음 수를 예측할 수 있는지 평가.
성능은 Stockfish 엔진을 통해 **폰 점수(pawn score)**로 측정됨.

✅ 비교 기준선 (Baselines)

우리는 다음 세 가지 기준선과 성능을 비교하였다:

단일 모델(Single Agent)
→ 하나의 LLM 인스턴스가 정답을 직접 생성.
자기 반성(Self-Reflection)
→ 생성된 응답에 대해 모델이 스스로 반성하고 다시 답을 생성 (Madaan et al., 2023).
다중 모델 다수결(Multiagent Majority Vote)
→ 여러 인스턴스가 생성한 응답 중 다수결을 통해 정답 결정 (Wang et al., 2022; Lewkowycz et al., 2022).

※ 부록 A.1의 Table A8에서는 자기 반성 에이전트 앙상블과의 비교도 제공함.

✅ 실험 설정

모든 실험은 동일한 시작 프롬프트와 동일한 언어 모델을 사용하여
기준선과 제안 방식의 공정한 비교를 보장.
기본적으로 zero-shot 세팅에서 모델을 평가함.
(부록 A.3 참조, few-shot 결과는 부록 A.1 참조)
대부분의 실험은 chatGPT-3.5 모델을 사용하고,
GPT-4와 LLaMA-7B 결과는 각각 Table A1, A5에 제시됨.
계산 비용 문제로, 대부분의 실험은 3개의 에이전트와 2라운드의 토론만 수행하였으나,
에이전트 수나 라운드를 늘릴수록 성능이 더 향상됨(Figure 9 참조).

📊 정량적 결과 (Quantitative Results)

Table 1에서는 산술, 초등수학(GSM8K), 체스 과제에 대한 성능을 보고한다.
다양한 에이전트들이 각각 솔루션을 제시하고 토론하는 구조는
→ 단일 언어 모델보다 확실히 성능이 우수하다.
Self-Reflection은 성능을 약간 향상시키긴 하지만,
→ multiagent debate는 훨씬 더 큰 성능 향상을 보여준다.
Multiagent Debate는 reflection과 multiagent generation의 장점을 결합한 방식으로 볼 수 있다.

🧠 정성적 결과 (Qualitative Results)

Figure 4, 5는 에이전트 간의 실제 토론 예시를 시각적으로 보여준다.
흥미롭게도, 모든 모델이 처음엔 오답을 냈더라도,
→ 토론을 거치면서 서로의 추론을 비판하고
→ 결국 올바른 정답에 도달하는 경우를 확인할 수 있었다.

즉, 이 토론의 목적은 “정답 증폭”이 아니라,
모두 틀렸더라도 정답에 이르게 만드는 과정적 보정에 있다.

🔁 기존 기법과의 시너지 (Compatibility with Other Methods)

본 방법은 기존 프롬프트 기반 기법들과 병행하여 사용할 수 있다.
Figure 6에서는 GSM8K 과제에서
**zero-shot chain-of-thought (Kojima et al., 2022)**을 적용했을 때의 성능 향상을 보여준다.
few-shot prompting 실험은 부록 A.1에 제시.
모든 세팅에서 multiagent debate는 일관되게 성능을 향상시킴.

3.2. 다중 에이전트 토론을 통한 사실 정보 추출

이번에는 다중 에이전트 토론이 언어 모델의 사실성(factuality)을 어떻게 향상시키는지 평가한다.

✅ 평가 과제 (Tasks)

우리는 다음 세 가지 과제를 통해 LLM의 사실성(factual accuracy)을 평가하였다:

1) 전기 생성(Biographies)
→ 기존 LLM들이 사람의 전기를 생성할 때 **사실을 자주 환각(hallucinate)**하는 경향이 있음을 발견하였다.
→ 이를 평가하기 위해 524명의 유명 컴퓨터 과학자에 대한 사실 기반 불릿포인트 전기를 구축하였다.
→ 모델들에게 이 인물들의 전기를 생성하게 한 뒤, **Appendix A.2에서 설명된 LLM 기반 평가자(critic)**로 정답성을 평가하였다.
2) MMLU (Massive Multitask Language Understanding)
→ 다양한 시험 수준의 지식을 평가하는 사실성 기반 질의응답 문제에 대해 모델이 얼마나 정확한 응답을 내는지를 평가하였다.
→ 기존의 MMLU 데이터셋(Hendrycks et al., 2020)을 사용.
3) 체스 이동 유효성(Chess Move Validity)
→ 체스 환경에서 모델이 제안하는 다음 수가 규칙상 유효한 수인지를 평가.
→ BIG-Bench의 체스 상태 추적 벤치마크(Srivastava et al., 2022)를 사용하여 제안된 수가 실제로 말이 되는지 확인.

✅ 기준선 (Baselines)

3.1절에서 사용한 단일 모델(Single Agent), Self-Reflection, 다수결(Multiagent Majority) 기준선을 동일하게 사용함.
단, **전기 생성(Biographies)**에서는 다수결을 적용하기 어려워 제외됨
(응답이 전부 다르기 때문에 하나를 고를 수 없음)

📊 결과 (Results)

Table 2에 제시된 결과를 보면, Self-Reflection 기반 접근은 사실성 개선 효과가 미미하거나 오히려 떨어짐.
반면, Multiagent Debate는 모든 기준선보다 우수한 성능을 보임.
Figure 12, 7은 전기 및 MMLU 과제에서 토론 후 모델 간 응답이 더 일관되고 정확해진 예시를 보여준다.

💬 흥미로운 발견

모델이 불확실한 문제일수록 서로 다른 응답을 내놓는 경향이 있었다.
그러나 각 모델에게 **“넌 이 답에 확신 있냐?”**고 물으면
→ 대부분 자신 있게 잘못된 응답을 확신한다고 답함(Kadavath et al., 2022).
반면, 서로의 응답을 보여주고 토론을 유도하면,
→ 모델들은 빠르게 의견을 수정하고 정확한 합의된 정답에 도달하는 경향을 보임 (Figure 8 참조).
또한, **모델이 확신하는 사실(모두가 동일한 답을 낼 때)**에는
→ 오히려 입장을 바꾸기 어려워짐.
→ 이 현상은 “설득의 용이성(ease of persuasion)”이 사실 확신의 간접 지표가 될 수 있음을 시사한다.

3.3. 분석: 다중 에이전트 토론의 이해

마지막으로, 다중 에이전트 토론이 어떤 조건에서 성능 향상에 기여하는지를 분석한다.

🔢 1) 에이전트 수의 영향 (Number of Agents)

Figure 9(a): 에이전트 수를 증가시키고 토론 라운드는 2로 고정한 결과
→ Arithmetic 과제에서 에이전트 수가 늘어날수록 성능이 선형적으로 증가
Table A4에서는 10명의 에이전트 vs 50명 다수결 구조도 비교 분석함

🔁 2) 토론 라운드 수의 영향 (Rounds of Debate)

Figure 9(b): 에이전트 수는 3으로 고정하고 토론 라운드 수를 증가시켰을 때
→ 마찬가지로 Arithmetic 과제에서 성능이 지속적으로 향상됨
Figure A2에서는 토큰 단위 perplexity가 라운드가 진행될수록 감소함을 보여줌
→ 모델이 점점 더 확신(confidence) 있는 응답을 내기 시작한다는 의미

⏱️ 3) 토론 길이에 따른 정확도 영향

Figure 10: 짧은 프롬프트 vs 긴 프롬프트를 비교
→ 긴 프롬프트는 느리게 수렴하지만, 더 정확한 최종 답에 도달
→ Figure A1은 토론 수렴 속도 비교 시각화

🎭 4) 에이전트에 다양한 초기 설정 부여 (Initialization Prompts)

MMLU 실험에서 각 모델에게 “교수님”, “의사”, “수학자” 등의 페르소나를 부여한 결과
→ 성능이 71.1 → 74.2로 향상됨
→ 전문화된 관점을 가진 모델들 간 토론이 더 효과적임을 시사

📝 5) 요약(Summarization)을 통한 효율화

여러 에이전트의 응답을 단순 **연결(concatenate)**할 경우 → 길이가 너무 길어짐
각 응답을 먼저 요약해서 다음 라운드에 넘기는 방식 도입
Figure 11에서 Arithmetic 성능 향상 확인
→ 요약은 성능 향상 + 토큰 절약 두 마리 토끼를 잡을 수 있음

🔀 6) 서로 다른 LLM 간 토론

ChatGPT vs Bard 조합으로 GSM8K 20문항 실험한 결과:
- Bard: 11문제 정답
- ChatGPT: 14문제 정답
- 둘의 토론 결과: 17문제 정답
  → 서로 다른 모델 간의 토론이 상호 보완적 학습 효과를 창출함
GPT-4, LLaMA-7B 기반 실험 결과도 Appendix A1, A5에 제시

4. 관련 연구 (Related Work)

📌 언어 모델에서의 추론과 사실성 (Reasoning and Factuality in Language Models)

언어 모델에서 **추론(reasoning)**과 **사실성(factuality)**을 가능하게 하기 위한 다양한 연구들이 존재한다.

추론 능력 향상을 위한 접근으로는
- scratchpads (Nye et al., 2021),
- 검증(verification) (Cobbe et al., 2021),
- 체인 오브 생각(chain-of-thought) 시연 (Wei et al., 2022; Kojima et al., 2022; Reynolds & McDonell, 2021),
- 중간 단계 자기 반성(intermediate self-reflection) (Shinn et al., 2023; Madaan et al., 2023),
- 파인튜닝(finetuning) (Lewkowycz et al., 2022; Rajani et al., 2019; Zelikman et al., 2022) 등이 있다.
사실성 향상을 위한 접근으로는
- RLHF (Ziegler et al., 2019; Liu et al., 2022a; Christiano et al., 2017),
- 진실한 데이터셋 필터링(pruning truthful datasets) (Lee et al., 2022),
- 외부 지식 검색(external knowledge retrieval) (Guu et al., 2020),
- 확률 기반의 트레이닝 없이 작동하는 기법 (Kadavath et al., 2022) 등이 있다.

우리의 연구는 이러한 기존 방법들과 달리,
언어 생성기(language generator)에 대한 블랙박스 접근만으로 작동하는 multiagent debate 방식을 통해
추론과 사실성을 확보할 수 있는 대안적 방법을 제시한다.

기존 연구들 중 일부는 다양한 모델의 응답에 대해 다수결을 수행하는 방식도 실험한 바 있다
(Li et al., 2022b; Cobbe et al., 2021; Wang et al., 2022; Thoppilan et al., 2022; Lewkowycz et al., 2022).
하지만 본 연구에서는 모델 간의 반복적인 토론 라운드를 통해 응답을 통합하는 방식을 제안한다.

우리의 연구와 가장 유사한 이전 연구는 **Irving et al. (2018)**로,
이들도 강력한 AI 에이전트의 정확성과 안전성을 검증하기 위한 토론 절차를 제안하였다.
하지만 그들의 접근 방식은

에이전트들이 교대로 입력에 대한 근거를 제시하고,
사람이 판정자로 개입하여 토론을 평가하는 구조인 반면,
우리의 방식은 모델끼리 직접적으로 응답을 생성하고 수정하며
순수 자동화된 방식으로 토론이 이루어진다는 점에서 차이가 있다.

📌 조합적 생성 (Compositional Generation)

우리의 연구는 여러 모델을 조합하여 텍스트 생성을 수행하는 기존 연구들과도 관련이 있다
(Du et al., 2020; Liu et al., 2022b; Zeng et al., 2022; Alayrac et al., 2022; Du et al., 2023).

특히 Li et al. (2022a), **Zeng et al. (2022)**는
**다양한 사전학습 모델(pretrained models)**을 **조합하여 멀티모달 추론(multimodal reasoning)**을 수행하는 방법을 제안하였다.

하지만 본 연구는 서로 다른 언어 모델 간의 “대화(communication)”를 통해
보다 효과적인 추론 및 사실성 향상을 달성한다는 점에서 차별성을 갖는다.

📌 다중 에이전트 언어 모델 (Multiagent Language Models)

본 연구와 시기적으로 비슷하게 진행된 여러 연구들은
대형 언어 모델에서 다중 에이전트 상호작용을 어떻게 활용할 수 있는지에 대해 탐구하였다
(Zhang et al., 2023; Li et al., 2024; Hong et al., 2023).

기존 연구들은 LLM을 활용한 다음과 같은 다양한 응용을 다루었다:

실체 기반 협력(embodied cooperation) (Zhang et al., 2023; Mandi et al., 2023; Chen et al., 2023)
AI 사회(AI societies) (Li et al., 2024)
소프트웨어 엔지니어링 (Hong et al., 2023; Wu et al., 2023)

또한, 우리와 유사하게 LLM에 토론(debate)을 적용하려는 최근 연구들도 존재한다
(Parrish et al., 2022; Michael et al., 2023; Khan et al., 2024).

Parrish et al. (2022)와 Michael et al. (2023)은
두 명의 신뢰할 수 없는 인간 전문가 간의 토론을 통해
정보가 부족한 인간 판정자가 질문에 답하도록 유도하는 실험을 진행했다.
- Parrish는 토론의 성과가 제한적이라 보았고,
- Michael은 보다 자유로운 토론 구조에서는 성능이 향상됨을 발견했다.
이후 Khan et al. (2024)은
LLM을 더 설득력 있게 만들수록,
판단력 개선 효과가 커진다는 점을 실험적으로 확인하였다.
→ 이는 토론이 점점 강력해지는 모델들에 대해 효과적인 감독 방식이 될 수 있음을 시사한다.

우리의 연구 및 Liang et al. (2023), **Chan et al. (2023)**은
이와 달리 추론(inference) 시점에서 토론을 수행하여 모델 성능을 개선하는 데 집중한다.

Liang et al. (2023)은
- 하나의 모델이 응답을 생성하고,
- 다른 모델이 이를 반박하는 응답을 생성하며,
- **중재자 모델(moderator)**이 이 토론을 조정하는 방식이다.
반면, 우리 방식은
- 여러 에이전트가 동시에 다양한 응답을 생성하고,
- 다른 에이전트들의 응답을 기반으로 자신의 답변을 갱신하도록 요청하는 방식이다.
- 이 과정을 여러 라운드 반복함으로써 모델의 추론력과 사실성을 향상시킨다.
이후 Chan et al. (2023)은
우리의 토론 구조를 기반으로
다른 에이전트의 응답을 인식하고, 이에 반응하여 자기 응답을 조정하는 구조를 LLM 평가에 적용하였다.

5. 한계 및 결론 (Limitations and Conclusion)

⚠️ 한계 (Limitations)

다른 프롬프트 기반 기술에 비해,
우리 방식은 계산 비용이 더 크다.
→ 다수의 에이전트와 토론 절차가 필요하기 때문이다.
이 비용 문제는
토론이 끝난 후의 정답을 distillation 방식으로 단일 모델에 학습시키는 방식으로 완화 가능하다.
또한, 토론 라운드가 길어질수록,
현재의 LLM들은 긴 컨텍스트를 완전히 처리하는 데 어려움을 겪는다.
더 긴 컨텍스트를 처리할 수 있도록 LLM을 훈련하거나,
이전 응답을 요약하는 방식으로 이 문제를 해결할 수 있다.

✅ 결론 (Conclusion)

이 논문에서는 **multiagent society(다중 에이전트 사회)**라는 개념을 기반으로
언어 모델의 성능을 향상시키는 새로운 방식을 제안하였다.

우리는 다양한 어려운 작업을 해결하기 위해,
모듈형 언어 에이전트들이 상호 협업하는 구조가
단순히 더 많은 계산 자원으로 성능을 높이는 것과는 다른 방향의 유망한 연구 분야임을 보여주었다.