22. RAFT: Adapting Language Model to Domain Specific RAG

논문

22. RAFT: Adapting Language Model to Domain Specific RAG

정일균 2024. 6. 2. 11:52

스터디에서 발표로 나온 내용이여서 개인적으로 정리를 해보고자 작성~!

대형 언어 모델(LLM)을 대규모 텍스트 데이터 코퍼스에 사전 학습시키는 것은 이제 표준 패러다임이 되었습니다. 이러한 LLM을 다양한 다운스트림 응용 프로그램에 사용할 때, RAG 기반 프롬프팅 또는 파인튜닝을 통해 새로운 지식(예: 시간에 민감한 뉴스 또는 비공개 도메인 지식)을 사전 학습된 모델에 추가로 포함시키는 것이 일반적입니다. 그러나 모델이 이러한 새로운 지식을 습득하는 최적의 방법론은 여전히 열린 질문으로 남아 있습니다. 본 논문에서는 "오픈북" 인도메인 설정에서 질문에 답할 수 있는 모델의 능력을 향상시키는 학습 레시피인 Retrieval Augmented Fine Tuning (RAFT)을 제시합니다. RAFT에서는 질문과 검색된 문서 세트가 주어졌을 때, 질문에 도움이 되지 않는 문서(우리가 방해 문서라고 부르는)를 무시하도록 모델을 훈련합니다. RAFT는 질문에 답하는 데 도움이 될 관련 문서에서 올바른 순서를 그대로 인용함으로써 이를 달성합니다. 이는 RAFT의 생각의 흐름 스타일 응답과 결합되어 모델의 추론 능력을 향상시키는 데 도움이 됩니다. 도메인 특화 RAG에서 RAFT는 PubMed, HotpotQA 및 Gorilla 데이터 세트 전반에서 모델의 성능을 지속적으로 향상시켜 사전 학습된 LLM을 인도메인 RAG로 향상시키는 포스트 트레이닝 레시피를 제시합니다. RAFT의 코드와 데모는 https://github.com/ShishirPatil/gorilla에서 오픈 소스입니다.

### 1. 소개
대규모 공개 데이터에 대해 학습된 대형 언어 모델(LLM)은 다양한 일반 지식 추론 작업에서 상당한 진전을 이루었습니다(Brown et al., 2020; Wei et al., 2022). 그러나 점점 더 많은 LLM이 특정 소프트웨어 프레임워크에 대한 코드 완성에서 특정 문서 컬렉션(예: 법률 또는 의료 문서)에 대한 질문 응답에 이르기까지 다양한 작업을 지원하기 위해 특수화된 도메인에서 사용되고 있습니다. 이러한 설정에서는 일반 지식 추론이 덜 중요하며, 대신 주어진 문서 세트에 기반한 정확성을 최대화하는 것이 주요 목표입니다. 실제로, LLM을 특수 도메인(예: 최신 뉴스, 기업 비공개 문서 또는 학습 마감 이후에 작성된 프로그램 리소스)에 적응시키는 것은 많은 신흥 응용 프로그램에서 필수적이며(Vu et al., 2023; Lazaridou et al., 2022), 이는 본 연구의 초점입니다.

본 논문은 다음 질문을 연구합니다 – 특수 도메인에서 Retrieval Augmented Generation (RAG)을 위해 사전 학습된 LLM을 어떻게 적응시킬 것인가?

LLM을 특수 도메인에 적응시키는 문제에 있어서, 우리는 Retrieval-Augmented Generation (RAG)을 통한 컨텍스트 학습과 지도된 파인 튜닝의 두 가지 후보를 고려합니다. RAG 기반 방법은 LLM이 질문에 답할 때 문서를 참조할 수 있게 합니다. 그러나 이러한 방법은 고정된 도메인 설정과 테스트 문서에 대한 초기 접근이 제공하는 학습 기회를 활용하지 못합니다. 반면에, 지도된 파인 튜닝은 문서에서 더 일반적인 패턴을 학습하고 최종 작업 및 사용자 선호도에 더 잘 맞출 수 있는 기회를 제공합니다(Zhou et al., 2023a). 그러나 기존의 파인 튜닝 기반 접근법은 테스트 시 문서를 활용하지 못하거나(RAG를 통합하지 않음), 학습 과정에서 검색 과정의 불완전성을 고려하지 못합니다.

우리는 오픈북 시험과의 유사성을 그릴 수 있습니다. 기존의 컨텍스트 검색 방법은 공부하지 않고 오픈북 시험을 치르는 것과 같습니다. 반면에 기존의 파인 튜닝 기반 접근법은 입력 문서를 직접 "암기"하거나(Xiong et al., 2023) 문서를 참조하지 않고 연습 문제에 답함으로써 "공부"를 구현합니다(Wang et al., 2022). 이러한 접근 방식은 인도메인 학습을 활용하지만 오픈북 테스트 설정을 준비하지 못합니다.

본 논문에서는 지도된 파인 튜닝(SFT)과 검색 증강 생성(RAG)을 결합하는 방법을 연구합니다. 우리는 Retrieval-Augmented Fine Tuning (RAFT)이라는 새로운 적응 전략을 제안합니다. RAFT는 도메인 지식을 통합하면서 인도메인 RAG 성능을 향상시키는 LLM의 파인 튜닝 문제를 구체적으로 다룹니다. RAFT는 파인 튜닝을 통해 도메인 특화 지식을 모델이 학습할 수 있도록 할 뿐만 아니라 부정확한 검색에 대한 견고성을 보장하는 것을 목표로 합니다. 이는 질문(프롬프트)과 검색된 도메인 특화 문서 및 적절한 답변 간의 역학을 이해하도록 모델을 훈련함으로써 달성됩니다. 우리의 접근 방식은 관련 있고 관련 없는 검색된 문서를 인식함으로써 오픈북 시험을 준비하는 것과 유사합니다.

RAFT에서는 문서(D*)에서 질문(Q)에 답하여 답변(A*)을 생성하도록 모델을 훈련합니다. 여기서 A*는 생각의 흐름(Wei et al., 2022; Anthropic, 2023)을 포함하고 방해 문서(Dk)가 있는 상황을 포함합니다. 방법론을 3장에서 자세히 설명하고, 5장에서 훈련 및 테스트 시 방해 문서(k) 수에 대한 민감도를 분석합니다. RAFT는 PubMed(Dernoncourt & Lee, 2017), HotpotQA(Yang et al., 2018) 및 HuggingFace Hub, Torch Hub 및 Tensorflow Hub Gorilla 데이터 세트(Patil et al., 2023) 전반에서 지도된 파인 튜닝에 비해 지속적으로 우수한 성능을 보이며, 인도메인 RAG를 위한 사전 학습된 LLM을 향상시키는 새롭고 간단한 기술을 제시합니다.

2. 오픈북 시험을 위한 LLM

우리의 목표를 더 잘 이해하기 위해, 현실 세계에서 시험을 준비하는 상황에서 LLM을 훈련하는 것과의 유사성을 확장해 설명합니다.

클로즈드 북 시험
클로즈드 북 시험은 LLM이 시험 중에 질문에 답하기 위해 추가 문서나 참고 자료에 접근할 수 없는 시나리오를 의미합니다. LLM의 경우, 예를 들어 LLM이 챗봇으로 사용되는 시나리오와 같습니다. 이 시나리오에서 LLM은 사전 학습 및 지도된 파인튜닝 중에 내재된 지식을 활용하여 프롬프트에 응답합니다.

오픈북 시험
이에 반해, 오픈북 시험 설정은 LLM이 외부 정보 출처(예: 웹사이트나 책 챕터)를 참조할 수 있는 시나리오에 비유할 수 있습니다. 이러한 시나리오에서는 일반적으로 LLM이 'k'개의 문서(또는 문서의 특정 부분)를 검색하여 프롬프트에 추가하는 검색기와 쌍을 이루게 됩니다. LLM은 검색된 이 문서를 통해서만 "새로운 지식"에 접근할 수 있습니다. 결과적으로, 이러한 설정에서 LLM의 성능은 주로 검색기의 품질과 검색기가 가장 관련성이 높은 정보를 얼마나 정확하게 식별할 수 있는지에 달려 있다고 할 수 있습니다.

도메인 특화 오픈북 시험
본 논문에서는 일반적인 오픈북 시험보다 좁지만 점점 더 인기를 끌고 있는 도메인인 도메인 특화 오픈북 시험에 초점을 맞춥니다. 도메인 특화 오픈북 시험에서는 LLM이 테스트될 도메인을 사전에 알고 있으며, 이는 추론에 사용됩니다. LLM은 이 특정 도메인에서 파인튜닝된 모든 정보를 사용하여 프롬프트에 응답할 수 있습니다. 도메인 특화 예로는 기업 문서, 최신 뉴스, 조직에 속한 코드 저장소 등이 있습니다. 이러한 모든 시나리오에서 LLM은 소규모 실용적 도메인 내에서 질문에 대한 답을 찾을 수 있는 문서 컬렉션을 사용하여 질문에 응답하게 됩니다. 검색 기술 자체는 메커니즘에 거의 영향을 미치지 않습니다(정확도에는 영향을 미칠 수 있지만). 이 논문은 주로 도메인 특화 오픈북 설정과 사전 학습된 LLM을 이 특정 도메인에 적응시키는 방법, 검색된 문서와 방해 요소의 수가 변하는 상황에 대해 더 견고하게 만드는 방법을 연구합니다.

### 3. RAFT
이 섹션에서는 도메인 특화 오픈북 시험을 위해 LLM을 훈련하는 새로운 방법인 RAFT를 소개합니다. 먼저 고전적인 지도된 파인 튜닝 기법을 소개한 후, 실험의 주요 결과를 설명합니다. 그런 다음, 일반적인 지시 튜닝을 수정한 RAFT를 소개합니다. 마지막으로, 후속 섹션에서 기대할 수 있는 실험 개요를 제공합니다.

#### 지도된 파인 튜닝
질문-답변 데이터셋에 대한 지도된 파인 튜닝(SFT) 설정을 고려해보겠습니다. 이 설정은 질문(Q)과 이에 대응하는 답변(A) 쌍이 파생되거나 이미 존재하는 데이터셋(D)으로 구성됩니다. 고전적인 SFT 설정에서, 모델은 사전 학습 중 또는 SFT 학습 단계에서 얻은 지식을 기반으로 질문에 답하는 능력을 향상시키도록 훈련됩니다. 이렇게 훈련된 모델은 테스트 시 Retrieval Augmented Generation (RAG) 설정에서 추가 문서를 프롬프트에 도입하여 질문에 답하는 데 사용할 수 있습니다. 이는 다음과 같이 표현할 수 있습니다:
- 학습: \( Q \rightarrow A \)
- 제로샷 추론: \( Q \rightarrow A \)
- RAG 추론: \( Q + D \rightarrow A \)

#### RAFT
Retrieval Aware Fine-Tuning (RAFT)은 도메인 특화 오픈북 설정에 맞추기 위해 모델을 조정하는 새로운 파인 튜닝 데이터 준비 방식을 제시합니다. 이는 인도메인 RAG와 동일합니다. RAFT에서는 각 데이터 포인트가 질문(Q), 문서 세트(\(D_k\)) 및 해당 문서(\(D^*\)) 중 하나에서 생성된 생각의 흐름 스타일 답변(A*)을 포함하도록 학습 데이터를 준비합니다. 우리는 두 가지 유형의 문서를 구분합니다: 질문에 대한 답변을 도출할 수 있는 '오라클' 문서(\(D^*\))와 답변 관련 정보를 포함하지 않는 '방해' 문서(\(D_i\)). 구현 세부 사항으로서, '오라클' 문서는 하나의 문서일 필요는 없으며, HotpotQA(Yang et al., 2018)에서처럼 여러 문서일 수 있습니다. 그런 다음, 데이터셋의 질문(\(q_i\)) 중 P 비율에 대해 오라클 문서(\(d^*_i\))와 방해 문서(\(d_{k-1}\))를 유지합니다. 데이터셋의 질문(\(q_i\)) 중 (1 − P) 비율에 대해 오라클 문서를 포함하지 않고 방해 문서(\(d_k\))만 포함합니다. 그런 다음 제공된 문서와 질문에서 답변을 생성하도록 표준 지도 학습(SFT) 기법을 사용하여 언어 모델을 파인 튜닝합니다. 그림 2는 RAFT의 고수준 설계 원리를 보여줍니다.

우리는 우리의 접근 방식이 모델을 훈련된 문서 세트에서 더 나은 RAG 성능을 발휘하도록 훈련함을 입증합니다, 즉 인도메인. 일부 경우에 오라클 문서를 제거함으로써 모델이 문맥에서 답을 도출하는 대신 답변을 암기하도록 강요합니다. RAFT의 훈련 데이터는 다음과 같으며, 훈련 데이터의 예는 그림 3에서 볼 수 있습니다:
- \( P \% \)의 데이터: \( Q + D^* + D_2 + ... + D_k \rightarrow A^* \)
- \( (1 − P) \% \)의 데이터: \( Q + D_1 + D_2 + ... + D_k \rightarrow A^* \)

그 후, 테스트 시나리오에서는 RAG 파이프라인에 의해 검색된 상위 k개의 문서와 함께 Q를 모델에 제공합니다. RAFT는 사용된 검색기와 독립적임을 주목하십시오.

훈련 품질을 향상시키는 주요 요소는 제공된 답변을 설명하기 위한 생각의 흐름과 같은 추론 과정을 생성하는 것입니다. RAFT 접근 방식도 유사합니다: 우리는 전체 추론 체인을 생성하고 명확하게 출처를 인용하는 것이 질문에 답하는 모델의 정확성을 향상시킨다는 것을 입증합니다. 그림 3에서 이 설정을 보여줍니다. 이 방식으로 훈련 데이터를 생성하는 것은 모델에게 질문, 문맥 및 검증된 답변을 제시한 다음, 원본 문맥을 적절히 참조하는 추론 체인을 형성하도록 요청하는 것을 포함합니다.

우리의 모든 실험 데이터셋에 대해, 우리는 위에서 설명한 기술을 사용하여 답변을 생성합니다. Gorilla APIBench 데이터셋은 이미 답변에 추론이 포함되어 있음을 주목하십시오. 그림 3에서 생성 단계의 예를 제공합니다. 자세한 추론 답변은 원본 문맥에서 인용을 포함하며, 인용을 기반으로 결론에 도달하는 방법에 대한 자세한 설명을 포함합니다. 자세한 추론 단락을 추가하는 것이 모델의 성능을 향상시키는 데 도움이 된다는 것을 실험 섹션에서 입증합니다.

4. 평가

우리는 RAFT가 다양한 기준 모델과 비교하여 얼마나 잘 수행되는지 연구하기 위해 실험을 설계했습니다. RAFT-7B 모델(파인 튜닝된 LlaMA-2 버전)이 도메인 특화 파인 튜닝 모델 및 RAG를 사용한 일반 목적 모델보다 인도메인 문서에서 정보를 읽고 추출하는 데 더 우수하다는 것을 발견했습니다. 또한, 모델이 생각의 흐름 응답을 학습하는 것이 얼마나 중요한지 입증하기 위해 탈락 실험도 수행했습니다. 이 섹션에서는 먼저 실험에 사용된 모든 데이터셋을 소개한 다음, 벤치마크한 모든 기준 모델/파인 튜닝 기법을 소개합니다.

4.1. 데이터셋

실험에서 모델과 모든 기준 모델을 평가하기 위해 다음 데이터셋을 사용했습니다. 이 데이터셋은 Wikipedia, 코딩/API 문서, 의료 문서에 대한 질문 응답 등 인기 있고 다양한 도메인을 대표하도록 선택되었습니다.

Natural Questions (NQ) (Kwiatkowski et al., 2019), Trivia QA (Joshi et al., 2017) 및 HotpotQA (Yang et al., 2018): Wikipedia를 기반으로 한 오픈 도메인 질문 응답으로, 주로 일반 지식(예: 영화, 스포츠 등)에 중점을 둡니다.
HuggingFace, Torch Hub 및 TensorFlow Hub: Gorilla 논문에서 제안된 APIBench (Patil et al., 2023)에서 가져왔습니다. 이러한 벤치마크는 문서를 기반으로 올바르고 기능적이며 실행 가능한 API 호출을 생성하는 방법을 측정합니다.
PubMed QA (Jin et al., 2019): 생의학 연구 질문 응답을 위해 맞춤화된 질문 응답 데이터셋입니다. 주로 주어진 문서를 기반으로 의학 및 생물학 질문에 답하는 데 중점을 둡니다.

첫 번째 카테고리의 데이터셋(NQ, Trivia QA 및 HotpotQA)은 비교적 일반적인 도메인인 반면, 후자의 두 도메인은 매우 도메인 특화된 문서입니다.

기준 모델

우리의 실험을 위해 다음 기준 모델을 고려합니다:

LlaMA2-7B-chat 모델과 0-샷 프롬프팅: QA 작업을 위한 일반적으로 사용되는 지시 파인 튜닝 모델로, 명확히 작성된 지시를 제공하지만 참조 문서는 포함하지 않습니다.
LlaMA2-7B-chat 모델과 RAG (Llama2 + RAG): 이전 설정과 유사하지만 여기서는 참조 문서를 포함합니다. 이는 도메인 특화 QA 작업을 처리할 때 인기 있는 기술입니다.
도메인 특화 파인 튜닝과 0-샷 프롬프팅 (DSF): 문맥에서 문서 없이 표준 지도 파인 튜닝을 수행합니다. 이는 주로 모델의 응답 스타일을 맞추고 도메인 문맥에 익숙해지는 데 유용하다는 것을 발견했습니다.
도메인 특화 파인 튜닝과 RAG (DSF + RAG): 도메인 특화 파인 튜닝된 모델을 외부 지식을 사용하여 RAG와 함께 장비합니다. 따라서 모델이 모르는 "지식"에 대해서는 여전히 문맥을 참조할 수 있습니다.

### 4.2. 결과
위의 데이터셋과 기준 모델을 사용하여 RAFT 모델을 평가하고, 표 1에서 RAFT의 효과를 입증합니다. RAFT는 일관되게 기준 모델들을 상당히 능가합니다. 기본 Llama-2 지시 튜닝 모델과 비교할 때, RAG를 사용하는 RAFT는 정보 추출 면에서 훨씬 더 잘 수행되며 방해 요소에 대해 견고합니다. Hotpot QA에서 최대 35.25%, Torch Hub 평가에서 76.35%의 성능 향상을 보였습니다. 특정 데이터셋에서 DSF와 비교할 때, 우리 모델은 제공된 문맥을 활용하여 문제를 해결하는 데 더 우수합니다. RAFT는 HotpotQA 및 HuggingFace 데이터셋에서 훨씬 더 나은 성능을 보입니다(HotpotQA에서 30.87%, HuggingFace에서 31.41%). PubMed QA의 경우, 이는 이진 예/아니오 질문이므로, 우리 모델을 DSF + RAG와 비교할 때 유의미한 성능 향상을 관찰하지 못했습니다. 훨씬 크고 더 나은 모델인 GPT-3.5와 비교할 때도 RAFT는 상당한 이점을 보입니다.

전반적으로, LLaMA-7B 모델은 RAG를 사용하든 사용하지 않든 정답과 맞지 않는 응답 스타일로 인해 성능이 저조합니다. 도메인 특화 튜닝을 적용함으로써, 우리는 성능을 크게 향상시킬 수 있었습니다. 이 과정은 모델이 적절한 응답 스타일을 학습하고 채택할 수 있게 합니다. 그러나 도메인 특화 파인 튜닝(DSF) 모델에 RAG를 도입한다고 해서 항상 더 나은 결과를 도출하는 것은 아닙니다. 이는 모델이 문맥 처리 및 유용한 정보 추출 훈련이 부족함을 나타낼 수 있습니다. RAFT 방법을 통합함으로써, 우리는 모델이 요구되는 응답 스타일에 맞추는 것뿐만 아니라 문서 처리 능력도 향상시킬 수 있도록 훈련합니다. 결과적으로, 우리의 접근 방식은 다른 모든 것을 능가합니다.

### 4.3. CoT의 효과
우리는 또한 Chain-of-Thought 접근 방식이 모델의 성능을 향상시키는 효과를 평가하기 위해 분석을 수행했습니다. 표 2에서 나타낸 바와 같이, 질문에 단순히 답변을 제공하는 것만으로는 충분하지 않을 수 있습니다. 이 접근 방식은 손실을 빠르게 감소시켜 학습 과정이 분산되는 결과를 초래할 수 있습니다. 모델을 답변으로 안내할 뿐만 아니라 모델의 이해를 풍부하게 하는 추론 체인을 통합하면 전체적인 정확도가 향상될 수 있습니다. 실험에서 Chain-of-Thought를 통합하면 학습의 견고성이 크게 향상됩니다. 우리는 GPT-4-1106을 사용하여 Chain-of-Thought 프롬프트를 생성하고 그림 3에 사용한 프롬프트 예시를 포함했습니다.

### 4.4. 정성적 분석
RAFT가 도메인 특화 파인 튜닝(DSF) 접근 방식보다 잠재적인 이점을 어떻게 제공하는지 설명하기 위해, 그림 4에 비교 예시를 제시합니다. 이 예시는 DSF 모델이 시나리오 작가의 신원을 묻는 질문에 혼란스러워 하는 상황을 정성적으로 보여줍니다. 올바른 이름을 제공하는 대신, DSF 모델은 시나리오 작가가 쓴 영화 중 하나를 잘못 인용합니다. 반면에, RAFT 모델은 질문에 정확하게 답변합니다. 이 차이는 질문-답변 쌍만으로 모델을 훈련시키는 것이 제공된 문서에서 관련 문맥을 도출하는 모델의 능력을 저해할 수 있음을 시사합니다. 이 비교는 표준 지시 튜닝과 문맥 이해를 훈련 데이터셋에 통합하는 것이 모델의 텍스트 처리 능력을 유지하고 향상시키는 데 중요함을 강조합니다.

### 4.5. RAG를 위해 항상 오라클 문맥으로 LLM을 훈련해야 할까?
Retrieval-Augmented Generation (RAG)을 위해 대형 언어 모델(LLM)을 항상 오라클 문맥으로 훈련해야 하는지에 대한 탐구에서, 우리는 중요한 질문을 다룹니다: 훈련 데이터의 어느 비율(p%)이 오라클 문서를 포함해야 하는가? 직관적으로, 문맥에서 정보 읽기 및 추출(예: RAG 작업) 훈련의 효과를 위해 오라클 문서는 훈련 중 항상 포함되어야 한다고 가정할 수 있습니다(\(P = 100\%\)). 그러나 우리의 발견은 이 가정을 도전합니다: 문맥에 오라클 문서가 없는 일부 훈련 데이터를 통합하는 것(\(P = 80\%\))이 RAG 작업에서 모델의 성능을 향상시키는 것으로 보입니다.

그림 5는 오라클 문서를 포함해야 하는 훈련 인스턴스의 비율을 나타내는 하이퍼파라미터 P%에 대한 조사를 제시합니다. 우리의 분석은 최적의 비율이 데이터셋에 따라 다름을 보여줍니다, 비율은 40%, 60%, 100%로 다양합니다. 이는 문서 관련 질문에 답하는 다운스트림 작업을 위해 때때로 올바른 대응 문맥 없이 LLM을 훈련시키는 것이 유익할 수 있음을 나타냅니다. 우리의 훈련 설정에서는 오라클 문서와 함께 네 개의 방해 문서를 포함하며, 테스트 시에는 오라클 문서와 네 개의 방해 문서를 제공하여 이 형식을 유지합니다. 우리의 발견은 도메인 특화 RAG 작업의 경우, 문맥에 오라클 문서가 없는 일정 비율의 훈련 데이터를 포함하는 것이 유리하다는 것을 시사합니다.

### 5. RAFT의 Top-K RAG로의 일반화
RAFT의 다양한 벤치마크에서의 성능을 입증한 후, 이제 또 다른 중요한 문제를 연구합니다:
평가 중 Top-K 검색 증강 생성(RAG) 결과와 함께 방해 문서의 수가 RAFT의 성능에 어떻게 영향을 미치는가? 이전 연구는 LLM이 관련 없는 텍스트에 취약하다는 것을 강조했습니다(예: Shi et al., 2023a; Weston & Sukhbaatar, 2023; Liu et al., 2023b). 이 문제는 특히 LLM + RAG에서 중요한데, 이는 높은 재현성을 보장하기 위해 테스트 시 자주 사용되기 때문입니다. 이러한 시나리오는 모델이 관련 없는 콘텐츠를 분별하고 무시하며 관련 정보에만 집중할 수 있는 능력을 필요로 합니다.

#### 5.1. Top-K RAG에 대한 모델의 견고성 강화
검색 파이프라인 내에서 관련 없는 텍스트를 걸러내는 대형 언어 모델(LLM)의 능력을 향상시키기 위해, 우리의 분석은 오라클(매우 관련 있는) 문서로만 훈련하면 모델의 관련 없는 정보를 분별하고 무시하는 능력이 의도치 않게 감소할 수 있음을 보여줍니다. 이를 해결하기 위해, RAFT 알고리즘은 오라클 문서와 관련 없는 문서를 혼합하여 통합하는 전략을 채택합니다. 이 방법론은 훈련 과정 전반에 걸쳐 통합할 이상적인 부정(관련 없는) 문서의 비율을 조사하고, 테스트 단계에서 검색 증강 생성(RAG)에서 만나는 문서의 다른 양에 어떻게 잘 적응하는지 평가하도록 합니다. 우리의 목표는 관련 정보와 관련 없는 정보 간의 균형을 조정하여 모델이 관련 콘텐츠를 식별하고 활용하는 효율성을 강화하는 것입니다. 4.5절에서는 훈련 데이터의 몇 퍼센트가 방해 문서를 포함해야 하는지에 대해 다루었지만, 이 섹션에서는 테스트 시나리오를 연구합니다.

#### 부정 문서로 훈련하기
검색된 문서에서 관련 없는 텍스트에 대한 대형 언어 모델(LLM)의 견고성을 강화하기 위해, 우리는 황금(매우 관련 있는) 문서와 방해(관련 없는) 문서를 모두 통합하는 파인 튜닝 접근 방식을 채택했습니다. 모델은 다양한 수의 방해 문서로 훈련되었지만, 검색기에서 얻은 Top-K 문서를 사용하여 일관되게 평가되었습니다(p와 혼동하지 마십시오).
그림 6에 자세히 설명된 우리의 발견은 오라클 문서로만 파인 튜닝할 경우 방해 문서 수가 많은 구성보다 성능이 떨어진다는 것을 보여줍니다. 그림에서 볼 수 있듯이, Natural Questions에서는 \( D^* + 3D \)로 훈련하는 것이 더 나은 성능을 보이고, Hotpot QA에서는 \( D^* + 1D \) 문서로 훈련하는 것이 더 나은 성능을 보입니다. 이 통찰력은 RAFT 알고리즘에 특히 유익했습니다. 우리의 실험에서, 우리는 일반적으로 네 개의 방해 문서와 함께 하나의 오라클 문서를 포함하는 훈련 설정을 사용합니다. 이 접근 방식은 모델이 방해 요소에 압도되지 않으면서도 관련 정보를 효과적으로 식별하고 우선순위를 정하는 능력을 갖추도록 보장합니다.

#### 테스트 시 문서 수의 가변성에 대한 일반화
우리는 모델 성능에 대한 테스트 시 문서 수의 영향을 조사하기 위해 연구를 확장했습니다. 구체적으로, 우리의 실험은 다양한 수의 방해 문서로 훈련된 모델이 테스트 시 제공되는 문서 수의 변화에 어떻게 반응하는지 평가하는 데 중점을 두었습니다.
그림 6에 설명된 결과는 훈련 중 방해 문서를 포함하면 테스트 시 만나는 문서 수의 변동에 대해 모델을 더 탄력 있게 만든다는 것을 확인합니다. 테스트 시 문서 수의 변동에도 불구하고 일관된 성능을 유지하는 이 능력은 우리의 접근 방식, RAFT의 견고성을 더욱 입증합니다. 이 발견은 모델이 실제 응용 프로그램에서 만날 수 있는 다양한 시나리오에 대비하기 위해 잘 조정된 훈련 환경의 중요성을 강조합니다.

6. 관련 연구

검색 증강 언어 모델 (RAG)
RAG는 외부 지식 베이스에서 관련 정보를 소싱하는 검색 모듈을 통합하여 언어 모델의 성능을 크게 향상시킵니다. 이는 언어 모델링(Guu et al., 2020; Borgeaud et al., 2022; Khandelwal et al., 2019; Shi et al., 2023d; Lin et al., 2023b; Shi et al., 2023c; Asai et al., 2023; Xu et al., 2023; Wang et al., 2023)과 오픈 도메인 질문 응답(Izacard et al., 2023; Lewis et al., 2020)을 포함한 다양한 NLP 작업에서 성능을 개선합니다. 이 통합은 “검색하고 읽기” 패러다임을 따르며, 검색 모듈이 외부 소스에서 추가 문맥을 제공하면 언어 모델이 이를 사용하여 최종 출력을 생성합니다. 검색 프로세스는 입력을 쿼리로 사용하여 문서를 가져오고, 언어 모델이 최종 예측을 위해 이를 통합하는 것을 포함합니다. 예를 들어, Atlas(Izacard et al., 2023)는 T5 모델을 검색기와 함께 파인 튜닝하여 문서를 잠재 변수로 처리하고, RETRO(Borgeaud et al., 2022)는 검색된 텍스트를 포함하도록 디코더 전용 아키텍처를 수정하고 처음부터 사전 학습을 수행합니다. kNN-LM(Khandelwal et al., 2019)은 추론 시 언어 모델의 다음 토큰 분포와 검색된 토큰에서 계산된 분포 사이를 보간합니다. (Shi et al., 2023d; Ram et al., 2023)은 블랙박스 접근 방식의 언어 모델을 사용하여 기성 또는 파인 튜닝된 검색기와 결합합니다.

암기
대형 신경 언어 모델에 대한 주요 질문은 이들이 실제로 텍스트를 “이해”하는지(Feldman, 2020; Power et al., 2022) 아니면 단순히 표면 패턴 암기에 의존하는지(Carlini et al., 2019; Tänzer et al., 2022)입니다. (Feldman, 2020; Carlini et al., 2019; 2022)는 신경 모델에서 암기의 정도를 정량화하는 방법론을 개발합니다. (Brown et al., 2020; Power et al., 2022; Liu et al., 2022b)는 암기가 모델의 일반화 능력에 미치는 영향을 추가로 탐구했습니다. 최근 (Carlini et al., 2021; Shi et al., 2023b)의 중요한 연구는 언어 모델이 학습 데이터를 암기하고 반복할 수 있는 능력을 입증하여 중요한 프라이버시 문제를 제기했습니다(Kandpal et al., 2022; Pan et al., 2020).

LLM의 파인 튜닝
최근 몇 년간 대형 언어 모델(LLM)의 개발이 급속히 진행되었습니다(Brown et al., 2020; OpenAI, 2023; Workshop et al., 2022; Touvron et al., 2023; Anil et al., 2023). 이러한 기초 모델을 다운스트림 작업에 맞추기 위해 파인 튜닝(Mishra et al., 2021; Sanh et al., 2021; Chung et al., 2022; Muennighoff et al., 2023; Zhou et al., 2023b; Lin et al., 2023b; Ji et al., 2024)이 널리 사용되는 접근 방식이 되었습니다. 전통적인 지도 파인 튜닝은 LLM을 적응시키는 데 필요한 비용과 계산량 때문에 제한될 수 있습니다. 이러한 과제를 해결하기 위해, 파라미터 효율적인 파인 튜닝(Houlsby et al., 2019) 분야의 연구가 주목받고 있으며, 여기에는 프롬프트 튜닝(Lester et al., 2021), 프리픽스 튜닝(Li & Liang, 2021), P-튜닝(Liu et al., 2022a) 및 저랭크 기반 파인 튜닝(Hu et al., 2021) 등이 포함됩니다. 이러한 방법은 LLM이 도메인 특화 지식을 습득하고 질문 응답, 요약 및 대화 생성과 같은 특수 작업에 적응할 수 있게 합니다. 파인 튜닝의 또 다른 가지는 RLHF(Ouyang et al., 2022; Rafailov et al., 2023; Liu et al., 2023a; Zhang et al., 2023)를 통해 LLM의 선호도를 인간과 맞추는 것입니다.

RAG를 위한 파인 튜닝
최근에는 사전 학습된 LLM을 RAG 작업에서 더 잘 수행하도록 파인 튜닝하는 아이디어를 탐구하는 여러 논문이 등장했습니다(Lin et al., 2023a; Wang et al., 2023; Xu et al., 2023; Liu et al., 2024). 이러한 연구는 RAG를 위한 파인 튜닝 데이터셋을 구성하고 이러한 작업에서 잘 수행할 수 있도록 모델을 훈련하는 데 중점을 둡니다. 특히, 그들의 설정에서는 테스트 시 도메인이나 문서가 학습 시와 다를 수 있습니다. 반면, 우리의 논문은 동일한 문서 집합에서 LLM을 테스트하는 시나리오를 다룹니다.

7. 결론

RAFT는 특정 도메인 내에서 "오픈북" 설정으로 질문에 답하는 모델의 성능을 향상시키기 위해 설계된 훈련 전략입니다. 이 기법은 선택된 문서 컬렉션을 기반으로 한 질문 응답 작업을 위한 LLM의 파인 튜닝 레시피를 제시합니다. 우리는 방해 문서와 함께 모델을 훈련시키고, 일부 문맥에 오라클 문서가 없는 데이터셋을 구성하며, 관련 텍스트의 직접 인용과 함께 생각의 흐름 방식으로 답변을 공식화하는 등 여러 중요한 설계 결정을 지적했습니다. PubMed, HotpotQA, 및 Gorilla API Bench에서의 평가 결과는 RAFT의 상당한 잠재력을 강조합니다. 앞으로, 우리는 도메인 내 검색 증강 생성(RAG)이 산업 및 학계에서 계속 관심을 끌 것으로 예상합니다. 일반적인 RAG와 달리, 우리의 작업은 LLM이 도메인 특화 지식을 사용하여 질문에 답하는 실용적인 시나리오를 다룹니다. 현재 추세에 맞춰, 우리의 연구 결과는 더 작고 파인 튜닝된 모델이 도메인 특화 질문 응답 작업에서 일반 LLM에 비해 비슷한 성능을 발휘할 수 있음을 시사합니다.