[논문 리뷰] 36. REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

논문 2024. 9. 21. 17:59

아ㅏㅏㅏㅏ 엄청 많아 논문...

계속 언급이 되는 REACT에 대해서 정리를 할 필요가 있어서 정리...

LLMs은 언어 이해와 대화형 의사결정 작업 전반에 걸쳐 인상적인 성능을 보여 왔지만, 추론(예: 사고의 흐름 유도) 및 행동 생성(예: 작업별 행동 계획 생성) 능력은 주로 별개의 주제로 연구되었음

본 논문에서는 LLM을 사용하여 추론 흔적과 작업별 행동을 교차하여 생성함으로써 두 요소 간의 더 큰 시너지를 가능하게 하는 방법을 탐구

추론 흔적은 모델이 행동 계획을 유도, 추적 및 업데이트하고 예외를 처리하는 데 도움을 주며, 행동은 모델이 외부 소스(예: 지식베이스 또는 환경)와 추가 정보를 수집하고 상호 작용하게 함

ReAct라는 접근 방식을 적용하여 다양한 언어 및 의사결정 작업에 적용하고, 최신 Baseline을 능가하는 효과를 입증할 뿐만 아니라 개선된 인간 해석 가능성과 신뢰성을 보여줌

구체적으로, 질문 답변(HotpotQA)과 사실 검증(Fever)에서 ReAct는 사고의 흐름 추론에서 흔히 발생하는 환각과 오류 전파 문제를 극복하며, 간단한 Wikipedia API와 상호 작용하여 인간과 같은 작업 해결 궤적을 생성

이는 추론 흔적이 없는 Baseline보다 해석 가능성이 더 높음

또한, 두 대화형 의사결정 벤치마크(ALFWorld 및 WebShop)에서 ReAct는 모방 및 강화 학습 방법을 절대 성공률로 각각 34% 및 10%씩 능가

인간 지능의 독특한 특성은 작업 중심의 행동과 언어적 추론을 원활하게 결합할 수 있는 능력으로, 자기 조절이나 전략화를 가능하게 하고 작업 기억을 유지하는 중요한 역할을 한다고 이론화되었음

1. 작업 중심의 행동과 언어적 추론
작업 중심의 행동은 우리가 어떤 목표를 달성하기 위해 실제로 수행하는 행동을 의미
예를 들어, 요리를 하거나, 책상 위 물건을 정리하는 것이 작업 중심의 행동

언어적 추론은 우리가 생각을 언어로 표현하는 과정으로, 문제를 해결하기 위해 머릿속에서 하는 논리적 생각을 말함
예를 들어, "이제 물이 끓었으니 면을 넣어야겠다"와 같은 생각이 언어적 추론에 해당

2. 이 두 가지를 결합하는 능력
인간은 이러한 추론(생각)과 행동(실제 실행)을 동시에 결합하여 원활하게 진행할 수 있음
예를 들어, 요리를 할 때 생각(추론)을 통해 다음에 해야 할 일을 결정하고, 그 생각을 바탕으로 행동을 취함
이를 반복하면서 요리를 완성

3. 자기 조절과 전략화
자기 조절은 자신의 행동을 통제하고 조정하는 능력
예를 들어, 요리 중에 상황에 맞게 계획을 수정하거나, 잘못된 부분을 수정하는 것이 자기 조절

전략화는 더 큰 목표를 달성하기 위해 계획을 세우고 실행하는 과정을 의미
예를 들어, 요리를 할 때 재료 준비, 요리 순서 등을 계획하는 것이 전략화

4. 작업 기억의 유지
작업 기억은 우리가 현재 수행 중인 과제나 문제를 해결하기 위해 필요한 정보를 머릿속에 일시적으로 유지하는 능력
예를 들어, 요리할 때 "다음에는 물을 끓이고, 그 후에 소스를 준비해야지"라는 단계를 기억하는 것이 작업 기억
이 기억을 유지하면서, 우리는 여러 단계를 차례차례 수행할 수 있음

이 문장은 인간의 지능이 어떻게 언어적 추론(생각)과 작업 중심의 행동을 결합하여 자기 조절과 전략화를 가능하게 하고, 이를 통해 작업 기억을 유지하는 데 중요한 역할을 한다는 이론을 설명하는 것
인간은 이런 방식으로 더 복잡한 문제를 해결하고, 계획을 세워 행동하며, 필요에 따라 그 계획을 조정할 수 있는 능력을 갖고 있음

특정 행동 두 가지 사이에서 우리는 진행 상황을 추적하기 위해 언어로 추론할 수 있음("모든 것을 자른 지금, 물을 끓여야겠다")

상황에 따라 계획을 조정하거나 예외를 처리할 수 있음("소금이 없으니 간장과 후추를 사용하자")

그리고 외부 정보가 필요할 때를 인지할 수 있음("반죽은 어떻게 준비하지? 인터넷에서 검색해보자")

또한, 우리는 추론을 지원하고 질문에 답하기 위해 행동할 수도 있음(요리법을 읽기 위해 요리책을 열기, 냉장고를 열기, 재료 확인하기)

"행동"과 "추론" 사이의 긴밀한 시너지는 인간이 새로운 작업을 빠르게 배우고 이전에 보지 못한 상황이나 정보의 불확실성에 직면하여 견고한 의사결정이나 추론을 수행할 수 있게 함

최근 결과는 자율 시스템에서 언어적 추론과 대화형 의사결정을 결합할 가능성을 시사

한편, 적절히 유도된 LLMs은 산술, 상식 및 상징적 추론 작업에서 질문으로부터 답을 도출하기 위해 여러 단계의 추론 흔적을 수행하는 능력을 보여줌

그러나 이러한 "사고의 흐름" 추론은 모델이 자체 내부 표현을 사용하여 생각을 생성하고 외부 세계에 뿌리를 두지 않는 정적인 블랙 박스이며, 이는 지식을 반응적으로 추론하거나 업데이트하는 능력을 제한

이로 인해 추론 과정에서 사실 환각 및 오류 전파와 같은 문제가 발생할 수 있음(Figure 1 (1b)).

반면, 최근 연구는 대화형 환경에서 계획 및 행동을 위해 사전 훈련된 언어 모델을 사용하는 방법을 탐구했음

이 접근 방식들은 일반적으로 다중 모달 관찰을 텍스트로 변환하고, 언어 모델을 사용하여 특정 도메인의 행동이나 계획을 생성한 다음, 컨트롤러를 사용하여 이를 선택하거나 실행

그러나 이러한 접근법들은 고차원 목표에 대해 추상적으로 추론하거나 행동을 지원하는 작업 기억을 유지하는 데 언어 모델을 사용하지 않음

단순한 구현된 작업과 몇 개의 블록과 상호 작용하는 것을 넘어, 추론과 행동을 일반적인 작업 해결을 위해 상호작용적인 방식으로 결합

1. 대화형 환경에서의 계획과 행동

대화형 환경은 사람이 언어 모델과 상호작용하면서 모델이 계획을 세우고 행동을 취하는 환경을 의미
예를 들어, 텍스트 기반 게임에서 모델이 플레이어의 명령을 따라 물건을 찾거나, 지시에 따라 작업을 수행하는 것이 대화형 환경의 예시

2. 언어 모델의 역할

언어 모델은 이렇게 변환된 정보를 바탕으로 특정 행동이나 계획을 생성
즉, 언어 모델은 "무엇을 할지" 결정하는 데 사용
예를 들어, 방에 책상이 있다는 텍스트 정보를 받아들인 모델은 "책상 쪽으로 이동"하거나 "책상 위 물건을 확인"하는 등의 계획을 세우고 행동을 실행하는 것

3. 컨트롤러의 역할

생성된 계획이나 행동을 실제로 실행하는 것은 언어 모델이 아니라 컨트롤러
컨트롤러는 언어 모델이 제안한 행동 중 하나를 선택하거나 실행하여 실제로 작업이 이루어지게 함

이 연구에서 우리는 언어 모델과 함께 추론과 행동을 결합하여 다양한 언어 추론 및 의사 결정 작업을 해결할 수 있는 일반적인 패러다임인 ReAct를 제시(Figure 1).

ReAct는 LLM에게 작업과 관련된 언어적 추론 흔적과 행동을 교차하여 생성하도록 유도하여, 모델이 동적 추론을 수행하고 고차원 계획을 생성, 유지 및 조정할 수 있게 함(행동을 위한 추론), 동시에 외부 환경(예: Wikipedia)과 상호 작용하여 추론에 추가 정보를 통합(추론을 위한 행동).

ReAct와 HotPotQA, Fever, 텍스트 기반 게임, 웹페이지 탐색의 네 가지 다양한 벤치마크에서 실증적 평가를 수행

HotPotQA 및 Fever의 경우 모델이 상호 작용할 수 있는 Wikipedia API에 접근할 수 있어 ReAct는 바닐라 액션 생성 모델을 능가하며 사고의 흐름 추론(CoT, Wei et al., 2022)과 경쟁

전반적으로 가장 좋은 접근 방식은 추론 중 내부 지식과 외부에서 얻은 정보를 모두 사용할 수 있는 ReAct와 CoT의 결합

ALFWorld 및 WebShop에서는 ReAct의 일회성 또는 이틀 간의 유도가 103~105개의 작업 인스턴스로 훈련된 모방 또는 강화 학습 방법을 각각 34% 및 10%의 절대 성공률로 능가할 수 있음

또한, 행동만 있는 제어된 baseline과 비교하여 일관된 이점을 보여주는 결정적 의사 결정에서 희소하고 다재다능한 추론의 중요성을 입증

일반적인 적용성과 성능 향상 외에도, 추론과 행동의 결합은 모든 도메인에서 모델의 해석 가능성, 신뢰성 및 진단 가능성에 기여

인간은 모델의 내부 지식과 외부 환경의 정보를 쉽게 구별할 수 있으며, 모델 행동의 결정 기반을 이해하기 위해 추론 흔적을 검사할 수 있음

(1) 일반적인 작업 해결을 위해 언어 모델에서 추론과 행동을 조화롭게 결합하는 새로운 프롬프트 기반 패러다임인 ReAct를 소개

(2) 다양한 벤치마크를 통해 ReAct의 이점을 보여주고 이전 접근 방식과 비교하여 몇 차례의 학습 설정에서의 우위를 입증

(3) 추론 작업에서 행동의 중요성과 상호 작용 작업에서의 추론을 이해하기 위해 체계적인 제거 및 분석을 제시

(4) 프롬프트 설정하에 ReAct의 제한을 분석하고 추가 훈련 데이터로 개선될 수 있는 잠재력을 보여주는 초기 튜닝 실험을 수행

ReAct는 각 단계에서 추론과 행동을 교차

먼저 "후추통이 어디에 있을까?"라는 추론을 한 후, 찬장을 탐색하는 행동을 실행

결과를 보고 다시 추론을 통해 다음 행동을 결정

이렇게 추론과 행동의 반복적 상호작용을 통해 목표를 달성

ReAct 방식은 단순히 추론을 한 후 행동을 끝내는 것이 아니라, 각 단계마다 추론과 행동이 교차하면서 점진적으로 문제를 해결해 나가는 방식

이 과정에서 실시간으로 추론을 업데이트하고, 행동을 반영하여 추론을 개선하는 것이 ReAct의 핵심

이는 특히 복잡한 작업이나 여러 단계를 거쳐야 하는 문제에서 효과적

2장 REACT: 추론 + 행동 결합
일반적인 작업 해결 환경에서 에이전트가 환경과 상호 작용하는 설정을 고려해 보세요. 시간 단계 t에서, 에이전트는 환경으로부터 관찰 ot를 받고 일부 정책 π(at|ct)에 따라 행동 at를 취합니다. 여기서 ct = (o1, a1, ..., ot-1, at-1, ot)는 에이전트에 대한 맥락입니다. 맥락 ct에서 행동 at로의 매핑이 매우 암시적이고 광범위한 계산을 요구할 때 정책을 학습하는 것은 도전적입니다. 예를 들어, 그림 1(1c)에 나타난 에이전트는 QA 작업을 완료하기 위한 올바른 최종 행동(Act 4)을 생성할 수 없습니다. 이는 궤적 맥락(질문, Act 1-3, Obs 1-3)에 대한 복잡한 추론이 필요하기 때문입니다. 마찬가지로 그림 1(2a)에 나타난 에이전트는 맥락에서 싱크대 1에 후추통 1이 없다는 것을 이해하지 못하고 계속해서 환각 행동을 만들어냅니다.

ReAct의 아이디어는 간단합니다: 우리는 에이전트의 행동 공간을 A ∪ L로 확장합니다. 여기서 L은 언어의 공간입니다. 언어 공간에서의 행동 aˆt는 외부 환경에 영향을 주지 않으므로 관찰 피드백이 발생하지 않습니다. 대신, aˆt라는 생각은 현재 맥락 ct에 대해 추론하여 유용한 정보를 구성하고 미래의 추론이나 행동을 지원하기 위해 맥락 ct+1 = (ct, aˆt)을 업데이트하는 것을 목표로 합니다. 그림 1에서 보듯이 다양한 유용한 생각들이 있을 수 있습니다. 예를 들어, 작업 목표를 분해하고 행동 계획을 생성하는 것(2b, Act 1; 1d, Thought 1), 작업 해결에 관련된 상식 지식을 주입하는 것(2b, Act 1), 관찰에서 중요한 부분을 추출하는 것(1d, Thought2, 4), 진행 상황을 추적하고 행동 계획을 전환하는 것(2b, Act 8), 예외를 처리하고 행동 계획을 조정하는 것(1d, Thought 3) 등입니다.

그러나 언어 공간 L은 무한하기 때문에 이 확장된 행동 공간에서 학습하는 것은 어렵고 강력한 언어 선행조건이 필요합니다. 이 논문에서는 주로 PaLM-540B(Chowdhery et al., 2022)와 같은 동결된 대규모 언어 모델이 소수의 인텍스트 예제로 프롬프트되어 작업 해결을 위한 도메인별 행동과 자유 형식의 언어적 생각을 모두 생성하는 설정에 중점을 둡니다(그림 1 (1d), (2b)). 각 인텍스트 예제는 작업 인스턴스를 해결하기 위한 인간의 행동, 생각, 환경 관찰 궤적입니다(부록 C 참조). 추론이 주요한 중요성을 가지는 작업(그림 1(1))에서는 생각과 행동을 번갈아 가며 생성하여 작업 해결 궤적이 다수의 생각-행동-관찰 단계로 구성되도록 합니다. 반면, 다수의 행동을 포함할 수 있는 의사 결정 작업(그림 1(2))의 경우, 생각은 궤적에서 가장 관련 있는 위치에 드물게 나타나야 하므로 언어 모델이 생각과 행동의 비동기적 발생을 스스로 결정하도록 합니다.

의사 결정 및 추론 능력이 대규모 언어 모델에 통합되어 ReAct는 몇 가지 독특한 특징을 갖습니다: A) 직관적이고 설계하기 쉬움: ReAct 프롬프트를 디자인하는 것은 인간 주석자가 수행한 행동 위에 언어로 생각을 타이핑하기만 하면 되므로 간단합니다. 이 논문에서는 ad-hoc 형식 선택, 생각 디자인 또는 예제 선택을 사용하지 않습니다. 각 작업에 대한 프롬프트 디자인은 3장과 4장에서 자세히 설명합니다. B) 일반적이고 유연함: 유연한 생각 공간과 생각-행동 발생 형식 덕분에 ReAct는 QA, 사실 검증, 텍스트 게임 및 웹 탐색을 포함하여 서로 다른 행동 공간과 추론 요구 사항을 가진 다양한 작업에 적용됩니다. C) 성능이 좋고 견고함: ReAct는 한 개에서 여섯 개의 인텍스트 예제만으로 새로운 작업 인스턴스를 학습하면서도 일관되게 추론 또는 행동만 있는 기준선을 능가합니다. 우리는 3장에서 추가적인 튜닝이 가능할 때의 추가 이점을 보여주고, 4장에서 ReAct의 성능이 프롬프트 선택에 견고함을 보여줍니다. D) 인간과 일치하며 제어 가능함: ReAct는 인간이 추론 및 사실의 정확성을 쉽게 검토할 수 있는 해석 가능한 순차적 의사 결정 및 추론 과정을 제공합니다. 더욱이, 인간은 그림 5에서 보여지듯이 생각 편집을 통해 에이전트의 행동을 현장에서 제어하거나 수정할 수 있습니다.

지식 집약적 추론 작업

멀티홉 질문 응답과 사실 검증과 같은 지식 집약적 추론 작업으로 시작

그림 1(1d)에서 보듯이, Wikipedia API와 상호작용함으로써, ReAct는 추론을 지원하기 위한 정보를 검색할 수 있으며, 다음에 무엇을 검색할지를 목표로 하는 추론을 사용하여 추론과 행동의 시너지를 보여줌

설정 도메인

두 가지 지식 검색 및 추론에 도전하는 데이터셋을 고려

(1) HotPotQA

두 개 이상의 Wikipedia 통과에 대한 추론이 필요한 멀티홉 질문 응답 벤치마크와

(2) FEVER

각 주장이 Wikipedia 통과의 존재 여부에 따라 SUPPORTS, REFUTES 또는 NOT ENOUGH INFO로 주석이 달린 사실 검증 벤치마크

이 작업에서는 두 작업 모두에서 질문/주장만 입력으로 받고 지원 문단에 접근하지 않으며, 내부 지식을 의존하거나 외부 환경과 상호 작용하여 추론을 지원해야 함

행동 공간

상호작용적 정보 검색을 지원하기 위해 세 가지 유형의 행동을 가진 간단한 Wikipedia 웹 API를 설계

(1) search[entity]

해당 엔티티의 위키 페이지에서 처음 5개 문장을 반환하거나 존재하지 않는 경우 Wikipedia 검색 엔진에서 상위 5개 유사 엔티티를 제안

(2) lookup[string]

문자열이 포함된 페이지에서 다음 문장을 반환하여 브라우저의 Ctrl+F 기능을 시뮬레이션

(3) finish[answer]

답변으로 현재 작업을 완료

이 행동 공간은 대부분 정확한 문단 이름에 기반한 문단의 작은 부분만 검색할 수 있으며, 최신의 어휘적 또는 신경망 검색기보다 훨씬 약함

목적은 사람들이 Wikipedia와 어떻게 상호 작용하는지를 모방하고 모델이 언어적 추론을 통해 명시적으로 정보를 검색하도록 강제하는 것

방법 ReAct 프롬프팅

HotpotQA와 Fever에 대해, 훈련 세트에서 무작위로 6개와 3개의 사례를 선택하고 ReAct 형식의 궤적을 수동으로 구성하여 프롬프트에서 few shot로 사용

그림 1(d)와 유사하게, 각 궤적은 여러 생각-행동-관찰 단계(즉, 밀도 있는 생각)로 구성되며, 다양한 목적으로 자유 형식의 생각이 사용

구체적으로,

질문을 분해하는 생각("x를 검색하고, y를 찾은 다음, z를 찾아야 한다")

Wikipedia 관찰에서 정보를 추출하는 생각("x는 1844년에 시작되었다", "이 문단은 x에 대해 설명하지 않는다")

상식적 추론("x는 y가 아니므로 z가 되어야 한다") 또는 산술적 추론("1844 < 1989"), 검색 재구성을 안내하는 생각("아마 x를 검색/조회할 수 있을 것이다") 및 최종 답변을 종합하는 생각("...그래서 답은 x이다")을 사용

Baseline

우리는 ReAct 궤적을 체계적으로 제거하여 다양한 기준선(그림 1(1a-1c)의 형식)에 대한 프롬프트를 구축

(프롬프트를 다양하게 만든다는 의미 - React의 경우 여러 방법이 혼용되어 있기 때문에)

(a) 표준 프롬프팅(Standard), ReAct 궤적에서 모든 생각, 행동, 관찰을 제거

(b) 사고의 흐름 프롬프팅(CoT) (Wei et al., 2022), 행동과 관찰을 제거하고 추론 전용 기준선으로 사용
또한 추론 중 자기 일관성 기준선(CoT-SC) (Wang et al., 2022a;b)을 구축하여 추론 중에 디코딩 온도 0.7로 21개의 CoT 궤적을 샘플링하고 다수결 답변을 채택하여 CoT보다 성능을 일관되게 향상
(c) 행동 전용 프롬프트(Act), ReAct 궤적에서 생각을 제거하며, WebGPT (Nakano et al., 2021)가 인터넷과 상호 작용하여 질문에 답하는 방식과 유사하지만 다른 작업 및 행동 공간에서 운영되며 프롬프팅 대신 모방 및 강화 학습을 사용

내부 및 외부 지식 결합

ReAct에 의해 시연된 문제 해결 프로세스는 더 사실적이고 기반을 둔 반면, CoT는 추론 구조를 더 정확하게 형성할 수 있지만 환각된 사실이나 생각에 쉽게 시달릴 수 있음

ReAct는 외부 정보를 검색하여 사실적이고 신뢰할 수 있는 정보를 기반으로 문제를 해결하는 방식
이로 인해 할루시네이션이 발생할 가능성이 낮아짐

반면 CoT는 내부 지식과 추론만을 사용하기 때문에, 잘못된 정보나 환각된 사실을 생성할 가능성이 있음
이는 외부 검증 없이 내부적으로만 추론을 하기 때문

따라서 ReAct와 CoT-SC를 통합하고 다음과 같은 휴리스틱을 기반으로 다른 방법으로 전환할 시기를 모델에게 결정:

A) ReAct → CoT-SC: ReAct가 주어진 단계 내에서 답변을 반환하지 못할 경우 CoT-SC로 후퇴
ReAct 성능이 향상되지 않는다고 판단하여 HotpotQA와 FEVER에 각각 7단계와 5단계를 설정

B) CoT-SC → ReAct: n개의 CoT-SC 샘플 중 다수결 답변이 n/2회 미만으로 발생할 경우(즉, 내부 지식이 작업을 확신할 수 없을 때), ReAct로 후퇴

이 부분은 ReAct와 CoT-SC(Chain of Thought with Self-Consistency) 방식의 통합을 설명하는 내용
두 가지 방식의 장점을 결합하고, 각각의 방식이 효과적이지 않을 때 서로 다른 방식으로 전환하는 시점을 모델이 결정할 수 있도록 휴리스틱 규칙을 적용하는 것

ReAct → CoT-SC (ReAct에서 CoT-SC로 전환)
전환 조건: ReAct가 주어진 단계 내에서 답변을 내지 못하거나, 충분한 정보를 제공하지 못할 때 CoT-SC로 전환합니다.상황: ReAct 방식에서는 외부 정보를 검색하고 추론하면서 문제를 해결하려고 하지만, 주어진 단계(HotpotQA에서는 7단계, FEVER에서는 5단계)를 거쳐도 정확한 답변을 도출하지 못할 경우가 있을 수 있습니다.예를 들어, ReAct가 여러 번 외부 정보를 검색했음에도 불구하고, 필요한 정보를 찾지 못하거나 문제를 해결하는 데 실패할 때가 있습니다.이때 모델이 ReAct에서 CoT-SC로 후퇴하게 됩니다.CoT-SC 방식으로 후퇴: ReAct가 실패할 경우, CoT-SC 방식으로 전환됩니다. CoT-SC는 여러 CoT 추론을 샘플링한 후, 다수결로 가장 가능성 있는 답변을 선택하는 방식입니다. ReAct가 답을 찾지 못할 때 CoT-SC 방식은 내부 지식을 활용하여 문제를 해결하려 합니다.단계 설정: HotpotQA에서는 7단계, FEVER에서는 5단계 내에 ReAct가 답변을 내지 못하면 CoT-SC로 전환하도록 설계되었습니다. 이는 더 많은 단계를 사용해도 ReAct 성능이 크게 향상되지 않는다고 판단했기 때문입니다.
CoT-SC → ReAct (CoT-SC에서 ReAct로 전환)
전환 조건: CoT-SC 방식에서 n개의 CoT-SC 샘플 중 다수결 답변이 n/2회 미만으로 발생할 경우, 즉 내부 지식이 문제 해결을 확신할 수 없을 때 ReAct로 후퇴합니다.상황: CoT-SC 방식은 내부 지식을 기반으로 여러 번의 추론(CoT 궤적)을 샘플링하고, 그 중 가장 자주 등장한 답변을 다수결로 결정하는 방식입니다. 그러나, 만약 다수결이 충분한 확신을 주지 못하는 경우, 즉 CoT-SC 샘플들이 서로 다른 답을 생성하여 n/2 미만으로 다수결이 결정되는 경우, CoT-SC는 문제 해결에 확신을 가지지 못합니다.예를 들어, 모델이 10개의 CoT-SC 샘플을 생성했는데, 그 중 특정 답변이 5회 미만으로 나왔을 경우, 모델은 내부 지식이 불확실하다고 판단하게 됩니다.이때 ReAct로 전환하여 외부 정보를 검색하고 추가적인 데이터를 얻어 문제를 해결하려 합니다.
핵심 요점
ReAct → CoT-SC: ReAct가 외부 검색을 통해 답을 찾지 못할 때 CoT-SC로 후퇴하여 내부 지식 기반의 다수결로 답을 결정합니다.CoT-SC → ReAct: CoT-SC에서 내부 지식이 불확실하고 다수결이 n/2 미만일 때, ReAct로 전환하여 외부 검색을 통해 정보를 얻습니다.
요약
이 통합 방식은 ReAct와 CoT-SC의 장점을 결합하여, 각각의 방식이 한계에 도달했을 때 서로 보완하도록 설계되었습니다. ReAct는 외부 정보를 활용해 현실적이고 정확한 답을 제공할 수 있지만, 때때로 외부 검색이 실패할 수 있습니다. 이때 CoT-SC로 후퇴하여 내부 지식을 바탕으로 추론하고 답을 도출합니다. 반대로, CoT-SC가 내부 지식이 불확실할 때는 ReAct로 전환하여 외부 정보를 검색해 보충적인 정보를 얻습니다. 이 방식은 각 방법의 한계를 보완하고 더 나은 성능을 낼 수 있도록 돕습니다.

미세조정: 규모에서 추론 흔적과 행동을 수동으로 주석 처리하는 것이 어려움을 고려하여, Zelikman et al. (2022)과 유사한 부트스트래핑 접근 방식을 고려합니다. 우리는 ReAct(다른 기준선을 위해서도)에 의해 생성된 정답이 있는 3,000개의 궤적을 사용하여 입력 질문/주장에 조건을 부과하여 궤적(모든 생각, 행동, 관찰)을 디코드할 수 있도록 더 작은 언어 모델(PaLM-8/62B)을 미세조정합니다. 자세한 내용은 부록 B.1에 있습니다.

3.3 결과 및 관찰 ReAct는 일관되게 Act를 능가합니다: 표 1은 PaLM-540B를 기본 모델로 사용하여 다른 프롬프팅 방법으로 HotpotQA와 Fever 결과를 보여줍니다. ReAct는 두 작업 모두에서 Act보다 우수하며, 특히 최종 답변을 종합하는 데 추론이 행동을 안내하는 가치를 입증합니다(그림 1(1c-d) 참조). 미세 조정 결과도 추론 흔적이 더 많은 정보를 가진 행동에 도움이 된다는 것을 확인시켜 줍니다.

ReAct 대 CoT: 한편으로, ReAct는 Fever에서 CoT를 능가합니다(60.9 대 56.3)하고 HotpotQA에서는 CoT에 약간 뒤처집니다(27.4 대 29.4). Fever의 SUPPORTS/REFUTES 주장은 약간의 차이만 있을 수 있으므로(부록 D.1 참조), 정확하고 최신의 지식을 검색하는 것이 중요합니다. HotpotQA에서 ReAct와 CoT 간의 행동 차이를 더 잘 이해하기 위해, 우리는 ReAct와 CoT에서 각각 정답과 오답을 판단하는 EM으로 50개의 궤적을 무작위로 샘플링했으며(총 200개 예시), 그 성공 및 실패 모드를 표 2에 수동으로 레이블을 붙였습니다. 몇 가지 주요 관찰은 다음과 같습니다: A) 환각은 CoT에게 심각한 문제로, 성공 모드에서 ReAct보다 훨씬 높은 거짓 양성률(14% 대 6%)을 초래하며 주요 실패 모드(56%)를 구성합니다. 반면에, 외부 지식 기반의 접근을 통해 ReAct의 문제 해결 궤적은 더 기반을 둔, 사실 중심적이며 신뢰할 수 있습니다. B) 추론, 행동 및 관찰 단계를 교대로 하는 것은 ReAct의 기반과 신뢰성을 향상시키지만, 이러한 구조적 제약은 추론 단계를 형성하는 유연성을 감소시켜 CoT보다 더 높은 추론 오류율을 초래합니다. 우리는 ReAct에 특정한 하나의 빈번한 오류 패턴을 주목하는데, 이는 모델이 이전의 생각과 행동을 반복적으로 생성하며, 모델이 적절한 다음 행동을 취하고 루프에서 벗어날 것을 추론하지 못함으로써 "추론 오류"의 일부로 분류됩니다. C) ReAct에게는 검색을 통해 정보를 성공적으로 검색하는 것이 중요합니다. 정보가 없는 검색은 오류 사례의 23%를 차지하며, 모델 추론을 방해하고 생각을 회복하고 재구성하는 데 어려움을 겪게 합니다. 이는 사실성과 유연성 간의 예상되는 절충안으로, 두 가지 방법을 결합하는 우리의 제안된 전략을 동기 부여합니다. 우리는 부록 E.1에서 각 성공 및 실패 모드의 예를 제공합니다. 또한 일부 HotpotQA 질문이 오래된 답변 레이블을 포함할 수 있다는 것을 발견했습니다(예시로 그림 4 참조). ReAct + CoT-SC가 LLMs에 대한 최적의 프롬프팅 방법을 제공합니다. 표 1에서도 보여주듯이, HotpotQA와 Fever에서 최고의 프롬프팅 방법은 각각 ReAct → CoT-SC와 CoT-SC → ReAct입니다. 또한, 그림 2는 다양한 방법이 CoT-SC 샘플 수에 따라 어떻게 수행되는지 보여줍니다. 두 ReAct + CoT-SC 방법은 각각 한 작업에서 유리하지만, 다양한 샘플 수에서 CoT-SC를 일관되게 크게 능가하며, 단지 3-5개의 샘플을 사용하여 21개의 CoT-SC 성능에 도달합니다. 이 결과는 추론 작업을 위해 모델 내부 지식과 외부 지식을 적절히 결합하는 것의 가치를 나타냅니다. ReAct는 미세 조정에서 가장 좋은 성능을 발휘합니다. 그림 3은 HotpotQA에서 네 가지 방법(Standard, CoT, Act, ReAct)의 프롬프팅/미세 조정의 확장 효과를 보여줍니다. PaLM-8/62B에서 프롬프팅하는 동안 ReAct는 네 가지 방법 중 가장 성능이 낮습니다. 그러나 단지 3,000개의 예제로 미세 조정할 때, ReAct는 네 가지 방법 중 가장 좋은 방법이 되며, PaLM-8B 미세 조정된 ReAct는 모든 PaLM-62B 프롬프팅 방법을 능가하고, PaLM-62B 미세 조정된 ReAct는 모든 540B 프롬프팅 방법을 능가합니다. 반면에, Standard나 CoT의 미세 조정은 ReAct나 Act의 미세 조정보다 PaLM-8/62B에서 훨씬 나쁩니다. 전자는 본질적으로 모델에 지식 사실을 기억하도록 가르치며, 후자는 모델에게 Wikipedia에서 정보에 접근하기 위해 (추론하고) 행동하는 방법을 가르칩니다. 이는 지식 추론을 위한 더 일반화 가능한 기술입니다. 모든 프롬프팅 방법이 여전히 도메인별 최신 접근 방식에서 상당히 멀리 떨어져 있기 때문에, 우리는 더 많은 인간 작성 데이터로 미세 조정하는 것이 ReAct의 힘을 발휘하는 더 나은 방법일 수 있다고 믿습니다.

4장 의사결정 작업 또한, 우리는 ALFWorld와 WebShop과 같이 복잡한 환경을 특징으로 하는 두 가지 언어 기반 대화형 의사결정 작업에서 ReAct를 테스트합니다. 이러한 환경은 에이전트가 긴 시간 동안 희박한 보상으로 활동해야 하므로 효과적으로 행동하고 탐색하기 위한 추론이 필요합니다.

ALFWorld ALFWorld (Shridhar et al., 2020b)는 실제 ALFRED 벤치마크(Shridhar et al., 2020a)와 일치하도록 설계된 합성 텍스트 기반 게임입니다. 이 게임은 에이전트가 텍스트 행동(예: 커피테이블 1로 가기, 종이 2 가져오기, 데스크램프 1 사용하기)을 통해 시뮬레이션된 가정을 탐색하고 상호 작용하여 고차원 목표(예: 데스크램프 아래 종이 검사)를 달성해야 하는 6가지 유형의 작업을 포함합니다. 작업 인스턴스는 50개 이상의 위치를 포함할 수 있으며 전문가 정책이 해결하는 데 50단계 이상이 필요하므로, 에이전트는 목표를 계획하고 추적하며 체계적으로 탐색해야 합니다(예: 데스크램프를 찾기 위해 모든 책상을 하나씩 확인). 특히, ALFWorld에 내장된 한 가지 도전은 일반적인 가정용품(예: 데스크램프는 책상, 선반 또는 드레서에 있을 가능성이 높음)의 가능한 위치를 결정해야 한다는 것으로, 이는 LLM이 사전 훈련된 상식 지식을 활용하기에 좋은 환경입니다. ReAct를 프롬프트하기 위해, 우리는 각 작업 유형에 대해 훈련 세트에서 무작위로 세 가지 궤적을 주석 처리하며, 각 궤적은 목표를 분해하고, 하위 목표 완성을 추적하며, 다음 하위 목표를 결정하고, 물체를 찾을 위치와 그것을 어떻게 할지에 대해 상식을 통해 추론하는 희박한 생각을 포함합니다. ALFWorld에 사용된 프롬프트는 부록 C.4에 나와 있습니다. Shridhar et al. (2020b)을 따라, 우리는 134개의 보이지 않는 평가 게임에서 작업별 설정으로 평가합니다. 견고성을 위해, 우리는 3개 중 2개의 주석이 달린 궤적의 각 순열을 통해 각 작업 유형에 대해 6개의 프롬프트를 구성합니다. Act 프롬프트는 같은 궤적을 사용하여 구성되지만 생각 없이 구성되며, 작업 인스턴스가 훈련 세트에서 무작위로 선택되므로 ReAct나 Act에게 유리하지 않고 희박한 생각의 중요성을 테스트하기 위한 공정하고 통제된 비교를 제공합니다. 기준선으로는 각 작업 유형에 대해 105개의 전문가 궤적으로 훈련된 모방 학습 에이전트인 BUTLER(Shridhar et al., 2020b)를 사용합니다.

WebShop ReAct는 실제 애플리케이션을 위해 시끄러운 실제 언어 환경과 상호 작용할 수 있을까요? 우리는 WebShop(Yao et al., 2022)을 조사합니다. 이는 최근에 제안된 온라인 쇼핑 웹사이트 환경으로, 1.18M개의 실제 제품과 12k의 인간 지시사항을 포함합니다. ALFWorld와 달리, Webshop은 아마존에서 크롤링한 제품 제목, 설명 및 옵션과 같은 구조화되고 비구조화된 텍스트의 다양한 종류를 포함하며, 웹 상호작용을 통해 제품을 구매해야 합니다(예: “서랍이 있는 침대 옆 탁자를 찾고 있습니다. 니켈 마감이 되어 있어야 하며 $140 이하의 가격이어야 합니다”라는 사용자 지시에 따라 “서랍 침대 옆 탁자” 검색, “색상: 현대-니켈-흰색” 또는 “검색으로 돌아가기”와 같은 버튼 선택). 이 작업은 평균 점수(선택된 제품이 모든 에피소드에서 원하는 속성을 평균적으로 얼마나 커버하는지)와 성공률(선택된 제품이 모든 요구 사항을 충족하는 에피소드의 백분율)로 평가됩니다. 500개의 테스트 지시에 대해 평가합니다. 우리는 검색, 제품 선택, 옵션 선택 및 구매와 같은 행동을 포함한 Act 프롬프트를 구성하며, ReAct 프롬프트는 추가로 탐색할 것을 결정하고, 구매할 시기를 결정하며, 지시에 관련된 제품 옵션을 결정하기 위해 추론합니다. 예제 프롬프트는 표 6에, 모델 예측은 부록의 표 10에 나와 있습니다. 우리는 1,012개의 인간 주석 궤적으로 훈련된 모방 학습(IL) 방법과 추가적으로 10,587개의 훈련 지시로 훈련된 모방 + 강화 학습(IL + RL) 방법과 비교합니다.

결과 ReAct는 ALFWorld(표 3)와 Webshop(표 4)에서 Act를 모두 능가합니다. ALFWorld에서는 ReAct의 최고 시도가 평균 성공률 71%를 달성하여 가장 좋은 Act 시도(45%)와 BUTLER 시도(37%)를 크게 능가합니다. 사실, 더 나쁜 ReAct 시도(48%)조차도 두 방법의 가장 좋은 시도를 이깁니다. 또한, ReAct는 여섯 번의 통제된 시도에서 Act에 대한 이점이 일관되며, 상대적 성능 향상은 33%에서 90% 사이이며 평균 62%입니다. 질적으로, 아무런 생각도 없이, Act는 목표를 작은 하위 목표로 올바르게 분해하지 못하거나 현재 환경 상태를 추적하지 못하는 실패를 경험했습니다. ReAct와 Act를 비교한 예제 궤적은 부록 D.2.1 및 D.2.2에서 찾을 수 있습니다. Webshop에서는 일회성 Act 프롬프팅이 이미 IL 및 IL+RL 방법과 동등한 성능을 발휘합니다. 추가적인 희박한 추론을 통해 ReAct는 이전 최고 성공률보다 절대적으로 10% 개선된 성능을 달성합니다. 예를 들어 확인해보면, ReAct는 시끄러운 관찰과 행동 사이의 간극을 추론하여 지시에 관련된 제품과 옵션을 식별할 가능성이 더 높습니다(예: “거실용 공간 절약형 오토만 벤치에 대해, 제품에는 ‘39x18x18인치’ 및 ‘파란색’ 옵션이 있고 구매하기에 좋아 보입니다”). 그러나, 기존 방법들은 여전히 전문가 인간의 성능에 크게 못 미치며, 여전히 도전적인 프롬프팅 기반 방법에 대해 더 많은 제품 탐색 및 질의 재구성을 수행합니다.

내부 추론과 외부 피드백의 가치에 대하여, 저희가 알기로 ReAct는 대화형 환경 내에서 폐쇄 루프 시스템을 사용하여 추론과 행동을 결합한 첫 번째 시연입니다. 이와 가장 유사한 이전 작업은 Huang et al. (2022b)의 내적 독백(Inner Monologue, IM)입니다. 이 연구에서는 실체화된 에이전트의 행동이 동명의 "내적 독백"에 의해 동기 부여됩니다. 그러나 IM의 "내적 독백"은 환경 상태의 관찰과 에이전트가 목표를 만족시키기 위해 완료해야 할 사항에 국한됩니다. 반면에, 의사 결정을 위한 ReAct의 추론 흔적은 유연하고 드물게 발생하여, 다양한 작업에 대해 다양한 추론 유형을 유도할 수 있습니다(2장 참조).

ReAct와 IM 사이의 차이를 보여주고 내부 추론과 외부 피드백에 대한 단순한 반응의 중요성을 강조하기 위해, 우리는 IM과 유사한 밀집된 외부 피드백으로 구성된 사고 패턴을 사용한 소거 실험을 진행했습니다. 표 3에서 볼 수 있듯이, ReAct는 IM 스타일의 프롬프팅(ReAct-IM)을 크게 능가합니다(전체 성공률 71 대 53), 여섯 가지 작업 중 다섯 가지에서 일관된 이점을 보여줍니다. 질적으로 우리는 ReAct-IM이 종종 하위 목표가 완료되었는지, 다음 하위 목표가 무엇이어야 하는지를 식별하는 데 실수를 범했다는 것을 관찰했습니다. 이는 고차원 목표 분해의 부족 때문입니다. 또한, 많은 ReAct-IM 궤적들이 상식적 추론의 부족으로 인해 ALFWorld 환경 내에서 물건이 어디에 있을 가능성이 있는지를 판단하는 데 어려움을 겪었습니다. 이러한 단점들은 ReAct 패러다임에서 해결할 수 있습니다. ReAct-IM에 대한 자세한 내용은 부록 B.2에 있습니다. ReAct-IM을 위한 예제 프롬프트는 부록 C.4에, 예제 궤적은 부록 D.2.3에 나와 있습니다.

결론

LLM에서 추론과 행동을 결합하는 간단하지만 효과적인 방법

멀티홉 질문 응답, 사실 확인, 대화형 의사 결정 작업 등 다양한 실험을 통해 ReAct가 해석 가능한 결정 흔적과 함께 우수한 성능을 보여준다는 것을 보여줌

방법이 단순함에도 불구하고, 큰 행동 공간을 가진 복잡한 작업은 잘 학습하기 위해 더 많은 시연이 필요하며, 이는 불행하게도 인텍스트 학습의 입력 길이 제한을 쉽게 초과할 수 있음

HotpotQA에서 미세 조정 접근법을 탐구했으며 초기에 유망한 결과를 얻었지만, 성능을 더욱 향상시키기 위해서는 더 많은 고품질 인간 주석에서 학습하는 것이 필요할 것

ReAct를 다중 작업 훈련으로 확장하고 강화 학습과 같은 보완적인 패러다임과 결합하는 것은 LLM을 더 많은 애플리케이션에 대해 더 큰 잠재력을 발휘할 수 있게 하는 더 강력한 에이전트를 만들 수 있음

'논문' 카테고리의 다른 글

[논문 리뷰] 38. GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS (2)	2024.11.13
[논문 리뷰] 37. Enhanced Facet Generation with LLM Editing (9)	2024.09.26
[논문리뷰] 35. Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework (1)	2024.09.20
[논문 리뷰] 34. SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS (3)	2024.09.18
[논문리뷰] 33. Chain of Hindsight aligns Language Models with Feedback (3)	2024.09.16

ABOUT ME