[논문리뷰]30. CHAIN-OF-NOTE

논문 2024. 9. 11. 00:56

논문 주제 정하는거 때문에 정신이 나갈거 같음...ㅠ

Retrieval-augmented language models은 외부 지식 소스를 활용함으로써 사실적 환각을 줄이는 데 있어 대규모 언어 모델의 성능을 크게 향상시킨 모델

그러나 검색된 정보의 신뢰성은 항상 보장되지 않으며, 무관한 데이터의 검색은 잘못된 응답을 유도할 수 있고, 심지어 모델이 적절한 정보를 가지고 있음에도 불구하고 이를 간과하게 만들 수 있음

RALM은 내재적 지식과 검색된 지식이 충분한지 여부를 평가하는 데 어려움을 겪어, 정확한 답변을 제공하지 못할 때가 많음

지식이 부족한 상황에서는 이러한 시스템이 이상적으로는 "알 수 없음"이라고 답해야 함

이러한 문제에 대응하여, RALM이 노이즈가 많은 무관한 문서와 미지의 상황을 처리하는 능력을 개선하기 위한 새로운 접근 방식인 CHAIN-OF-NOTING (CON)을 소개함

CON의 핵심 아이디어는 검색된 문서에 대해 순차적인 읽기 노트를 생성하여, 주어진 질문에 대한 관련성을 철저히 평가하고, 이 정보를 통합하여 최종 답변을 도출하는 것

ChatGPT를 사용해 CON의 학습 데이터를 생성한 후, 이를 LLaMa-2 7B 모델에 훈련시킴

4개의 오픈 도메인 QA 벤치마크에서 실험한 결과, CON을 장착한 RALM이 기존 RALM보다 성능이 크게 향상된 것을 확인

특히, 완전히 노이즈가 많은 검색 문서에서 평균적으로 EM 점수가 +7.9 향상되었으며, 사전 훈련 지식 범위를 벗어난 실시간 질문에 대한 거부율이 +10.5 증가

Introduction

Retrieval-augmented language models은 사실적 환각을 줄이고, 최신 지식을 플러그 앤 플레이 방식으로 주입하며, 도메인별 전문성을 강화하는 등의 핵심적인 한계를 해결함으로써 LLMs을 크게 발전시킨 새로운 프레임워크

플러그 앤 플레이 방식은 Retrieval-Augmented Language Models이 외부 지식 소스를 활용하는 방식
즉, 모델이 학습하는 동안의 정보나 지식에만 의존하는 것이 아니라, 필요한 순간에 실시간으로 외부 데이터베이스나 문서에서 정보를 검색해와서 활용하는 기능을 의미
이 방식을 통해 LLM은 최신 정보나 모델이 사전에 학습하지 않은 특정 도메인 지식을 실시간으로 "플러그"처럼 추가로 가져와서 사용하는 방식으로, 별도의 추가 훈련 없이 즉각적으로 새로운 정보를 "플레이"처럼 사용할 수 있다는 의미에서 "플러그 앤 플레이"라고 표현함

이러한 향상은 주로 외부 지식 소스와 LLMs를 통합함으로써 이루어짐

일반적인 RALM 설정에서, 쿼리는 먼저 검색기를 통해 방대한 증거 자료집에서 관련 문서를 검색하고, 독자는 이러한 문서를 검토하여 유용한 정보를 추출한 후 최종 답변을 작성

RALM 프레임워크의 잠재적 이점은 관련 외부 지식을 통합함으로써 LLMs의 입력 텍스트 이해를 풍부하게 하고, 이를 바탕으로 답변을 생성하는 것

특히 LLMs가 특정 주제에 대한 직접적인 지식이 부족할 때 유용하며, 관련 정보를 플러그 앤 플레이 방식으로 획득하고 활용할 수 있음

그러나 현재 RALM 프레임워크에는 몇 가지 문제가 존재

첫째, 정보 검색(IR) 시스템이 항상 가장 관련 있고 신뢰할 수 있는 정보를 제공한다는 보장이 없음

무관한 데이터를 검색하면 잘못된 응답을 유도할 수 있으며, 모델이 쿼리에 답변할 수 있는 충분한 정보를 가지고 있음에도 이를 간과할 수 있음.

둘째, 최신 LLMs는 사실 기반 질문에 답할 때 환각을 일으키는 경우가 자주 있으며, 이는 사용자에게 위험할 수 있으며 신뢰를 떨어뜨릴 수 있음

1. 모델의 본래 지식과 외부 정보의 상호작용

모델이 이미 자체적으로 충분한 정보를 가지고 있음에도 불구하고 외부 데이터베이스에서 불필요하거나 무관한 정보를 검색해 사용함으로써, 본래의 지식이 희석되는 상황 발생

상황 예시: 모델이 스스로 답할 수 있는 질문에 대해, 불필요하게 외부 데이터베이스에서 정보를 검색한 후 이를 바탕으로 답변을 생성하는데, 그 정보가 부정확하거나 불필요할 수 있습니다. 이렇게 되면 모델이 본래 알고 있던 정보를 무시하고 잘못된 답변을 하게 될 위험이 있습니다.

이 문제는 검색한 정보에 과도하게 의존하여 본래의 모델이 이미 알고 있는 지식을 제대로 활용하지 못하는 것을 의미합니다. 이는 외부 정보가 항상 올바르거나 적합한 정보가 아닐 수 있기 때문에 발생

2. 사실 기반 질문과 환각 현상

사실 기반 질문은 일반적으로 명확하고 구체적인 사실에 대한 질문을 의미

예를 들면, "세계에서 가장 높은 산은 무엇인가?"와 같은 질문으로, 이에 대한 답은 명확한 사실에 기반해 있어야 함

특히 LLMs가 정확한 정보가 없을 때 발생하는데, 그 이유는 다음과 같음

데이터 부족: 모델이 사전에 학습하지 못한 정보에 대한 질문에 답을 하려고 할 때, 모델은 질문에 대한 정확한 답을 제공하지 못하고 무언가를 지어내는 경향을 보임
이로 인해 사실과 다른 내용을 생성할 수 있음
생성의 본질: LLM은 단어 간의 패턴을 학습한 다음, 해당 패턴을 바탕으로 새로운 문장을 생성하는 방식으로 동작
하지만 이 과정에서 논리적 오류나 신뢰할 수 없는 정보를 생성할 수 있음
특히 모델이 답을 모를 때도 자신 있게 잘못된 답을 제시할 수 있습니다.
외부 정보 의존: 외부 정보를 사용할 때, 그 정보가 정확하지 않으면 모델이 그 정보를 바탕으로 환각을 일으킬 가능성도 커짐

따라서, 사실 기반 질문에 대한 환각은 모델이 충분한 정보 없이 답변하려 하거나 외부에서 얻은 불완전한 정보를 무비판적으로 사용하는 경우에 발생할 수 있음

이상적으로는, 지능형 시스템은 자신이 내재적 지식과 검색된 지식이 충분한지를 판단하여 정확한 답변을 제공할 수 있어야 하며, 지식이 불충분한 경우에는 "알 수 없음"으로 응답해야 함

본 논문에서는 표준 RALM 시스템의 단점을 바탕으로, RALM의 강인성을 개선하는 두 가지 주요 측면에 중점을 둠:

(1) 노이즈 강인성: 무관한 검색 문서에서 발생하는 노이즈 정보를 분별하고 이를 무시하는 동시에 내재적 지식을 적절히 활용하는 능력.
(2) 미지 강인성: 모델이 해당 질문에 대한 지식이 없을 때 "알 수 없음"으로 응답하고, 검색된 문서에서도 관련 정보를 찾을 수 없는 경우 이를 인식하는 능력.

이 연구에서 RALM의 강인성을 강화하기 위해 CHAIN-OF-NOTING (CON)이라는 새로운 프레임워크를 소개

CON의 핵심은 검색된 문서에 대해 일련의 읽기 노트를 생성하여, 입력된 질문에 대한 관련성을 포괄적으로 평가하는 것

이 접근 방식은 각 문서의 적합성을 평가할 뿐만 아니라, 가장 중요한 신뢰할 수 있는 정보를 찾아내어 노이즈나 신뢰할 수 없는 내용을 효과적으로 필터링하여 더 정확하고 맥락적으로 관련된 답변을 도출할 수 있게 함

CON은 RALM이 학습 데이터 범위를 벗어난 질문을 처리하는 능력을 향상시킴

검색된 문서에서 관련된 정보를 제공하지 않을 경우, CON은 모델이 자신의 한계를 인식하고 "알 수 없음"으로 응답하거나, 주어진 데이터에 기반한 최선의 설명을 제공하도록 안내하여 모델의 신뢰성을 높임

CON 아이디어의 효과를 검증하기 위해, 우리는 먼저 ChatGPT를 사용하여 Natural Questions(NQ)에서 수집한 질문을 기반으로 10,000개의 학습 데이터를 생성했습니다. 이후, LLaMa-2 7B 모델에 노트 작성 능력을 통합하여 학습시킴

CON을 통합한 RALM을 표준 RALM 시스템과 비교 평가한 결과는 다음 세 가지 주요 측면에 중점을 둠

(1) DPR로 검색된 문서를 사용한 전반적인 QA 성능

(2) 노이즈 정보를 시스템에 도입하여 평가한 노이즈 강인성

(3) LLaMa-2 사전 훈련 데이터에 포함되지 않은 질문, 즉 실시간 질문을 통한 미지 강인성 평가

이 평가는 NQ 및 세 가지 추가 오픈 도메인 QA 데이터셋인 TriviaQA, WebQ, RealTimeQA에서 진행

실험 결과, CON은 DPR로 검색된 문서를 사용할 때 전반적인 QA 성능을 향상시켰을 뿐만 아니라, 노이즈 및 미지 시나리오에서의 강인성도 크게 개선한 것을 확인

구체적으로는 노이즈가 많은 검색 문서에서 정확도(EM 점수)가 +7.9 증가했으며, 사전 훈련 지식 범위를 벗어난 실시간 질문에 대한 거부율이 +10.5 증가

RELATED WORK

Retrieval-Augmented Language Models (RALMs)

Retrieval-Augmented Language Models은 외부 지식 소스가 제공하는 구체성과 세부 사항을 대규모 언어 모델의 힘과 결합하여 자연어 처리 분야에서 중요한 발전을 나타냄. 이 모델들은 먼저 검색기를 활용하여 Wikipedia와 같은 방대한 증거 자료를 스캔한 후, 사용자의 쿼리에 적합한 문서 집합을 식별

이후 독자(reader==LLM) 구성 요소가 이러한 문서를 신중하게 분석하고, 응답을 형성

이러한 두 단계 접근 방식은 생성된 답변의 관련성과 깊이를 보장

최근 연구는 주로 검색기나 독자를 개선하거나, 검색 시스템을 대규모 블랙박스 언어 모델과 통합하는 것에 초점을 맞추고 있음

또 다른 RALM의 발전으로는 kNN-LM이 있는데, 이 모델은 토큰 집합을 검색한 후, 다음 토큰 분포와 검색된 토큰에서 계산된 kNN 분포 사이에서 보간(interpolation)을 수행

kNN-LM(k-nearest neighbors Language Model)
Retrieval-Augmented Language Models (RALMs)의 한 종류로, 기존의 언어 모델과는 달리, 학습 데이터에서 유사한(가장 가까운) 토큰들을 검색해 그 결과를 모델의 답변 생성에 반영하는 방식
이 모델은 단순히 문서나 정보를 검색하는 것이 아니라, 토큰 레벨에서 유사한 데이터를 찾아내어 모델의 예측에 보완적으로 활용

작동 원리
기존 LLM의 역할: LLM은 주어진 문장에서 다음에 나올 가능한 토큰(단어 또는 부분 단어)을 예측
이를 위해 학습된 패턴과 확률 분포를 기반으로 예측을 진행

kNN 검색 단계: kNN-LM은 LLM이 다음에 나올 토큰을 예측할 때, 그 토큰만을 LLM 자체적으로 생성하는 것이 아니라, 외부 데이터베이스에서 k-최근접 이웃(k-nearest neighbors)을 검색
즉, 현재 문맥과 가장 가까운 데이터를 학습 데이터나 메모리에서 검색

보간(Interpolation): LLM이 예측한 다음 토큰의 확률 분포와, kNN에서 검색된 토큰의 확률 분포 사이에서 보간(Interpolation)을 수행
즉, LLM의 예측과 kNN 검색 결과를 조합해 더 정교한 최종 예측을 생성

예시
다음 문장이 주어졌다고 가정해 봅시다:
입력 문장: "The capital of France is"
목표: 다음에 나올 단어(토큰)인 "Paris"를 예측

1. LLM의 예측
기존의 LLM은 "France is"라는 문맥을 바탕으로 "Paris"라는 토큰을 예측할 확률이 가장 높다고 판단할 수 있음
예를 들어, LLM은 "Paris"가 85%의 확률로 다음에 나올 것으로 예측할 수 있음

2. kNN-LM의 k-최근접 이웃 검색
kNN-LM은 그와 동시에, 외부의 메모리 데이터베이스에서 "The capital of France is"와 유사한 문장을 검색
예를 들어, 다음과 같은 문장들이 검색될 수 있습니다:"The capital of Germany is Berlin.""The capital of Italy is Rome.""The capital of France is Paris."이 검색된 문장들에서 "Paris"가 가장 자주 등장한다면, kNN 검색 결과에서 "Paris"라는 토큰이 높은 확률로 선택

3. 보간(Interpolation)
kNN-LM은 LLM의 예측과 kNN에서 검색된 결과를 조합
예를 들어, LLM이 "Paris"를 85%로 예측했고, kNN에서 "Paris"가 90%로 검색되었다면, 보간을 통해 최종적으로 "Paris"가 90% 이상의 확률로 선택될 수 있음

이러한 발전은 ChatGPT 플러그인, Langchain, New Bing과 같은 retrieval-augmented 제품의 등장과 인기를 이끌었음

RALMs의 강인성
최근 연구들은 문맥의 관련성이 언어 모델 성능에 미치는 영향을 강조하고 있음

특히, Creswell et al은 무작위 또는 무관한 문맥을 포함하면 QA 성능이 저하될 수 있음을 입증

반면, Shi et al. 은 무관한 문맥을 예시나 특정 작업 지침에 추가하면 오히려 모델 성능이 향상될 수 있음을 발견했으며, 이는 모델이 사전 훈련 중에 개발된 능력을 내재적으로 가지고 있음을 암시

1. 모델의 사전 학습 중 내재된 패턴 인식 능력
LLM은 방대한 양의 데이터를 학습하면서, 문맥을 이해하고 패턴을 학습하는 능력을 개발
이 과정에서 모델은 중요한 정보와 그렇지 않은 정보를 구분하는 능력을 얻게 됨
무관한 문맥이 추가되더라도 모델이 더 관련성 있는 정보를 선별하는 능력을 가지고 있을 수 있음
이는 모델이 훈련된 데이터 내에서 특정 필터링 메커니즘을 내재적으로 개발했기 때문
예를 들어, 만약 "프랑스의 수도는 무엇인가?"라는 질문에 모델이 사전 학습 중 수많은 패턴을 학습했다면, 문맥에 무관한 정보가 있어도 관련 없는 정보를 무시하고 중요한 정보에 집중할 수 있는 능력을 보여줄 수 있음

2. 모델의 신경망 구조 특성
LLMs는 attention mechanism을 사용해 입력된 문장 중에서 어떤 부분이 중요한지 파악
즉, 모든 입력을 동일하게 처리하지 않고, 주어진 질문과 가장 관련성 있는 부분에 더 높은 가중치를 둠
이로 인해 무관한 문맥이 포함되더라도 모델은 질문에 맞는 가장 관련성 높은 정보를 선택하는 경향이 있음
이는 모델이 더 많은 정보를 고려함으로써 불필요한 정보를 무시할 수 있게 해주는 역할을 할 수 있음

3. 무관한 문맥이 추가된 상황에서 모델의 의사결정 강화
무관한 문맥이 주어지면, 모델이 그 문맥을 무시하거나 필터링하는 능력을 강화할 수도 있음
이는 모델이 더 정교한 판단을 내리게 하거나, 답을 생성할 때 다양한 정보를 활용하는 능력을 개선하는 방향으로 작용할 수 있음

4. 모델의 내재적 대조 학습(contrastive learning)
모델이 사전 학습 중 무관한 정보와 관련 있는 정보를 구분하는 경험을 많이 쌓았을 가능성도 있음
무관한 문맥이 추가되면, 모델이 더 명확한 결정을 내리기 위해 오히려 관련성이 높은 정보를 더욱 강화해서 사용할 수 있음
contrastive learning이란 모델이 여러 상황에서 다양한 종류의 문맥을 학습하면서, 관련성이 높은 것과 그렇지 않은 것을 구분하는 능력을 말함

우리의 연구와 가장 관련이 있는 것은 Yoran et al.의 연구로, 이 연구는 RALM이 무관한 문맥을 무시하도록 훈련하는 데 초점을 맞춤

이 접근 방식은 우리가 제안하는 해결책과는 다르지만, 문맥의 관련성이 RALM의 효과를 높이는 데 중요한 역할을 한다는 점을 시사

CHAIN - OF - X APPROACHES IN LARGE LANGUAGE MODELS

LLMs이 복잡한 문제를 일련의 중간 단계로 분해할 수 있음을 보여주었으며, 이 개념은 CoT 프롬프팅으로 선도되었음

이를 통해 LLM은 각 문제 세그먼트를 집중적으로 처리할 수 있어 중요한 세부 사항을 간과하거나 잘못된 가정을 할 가능성을 줄여줌

이러한 순차적 분해는 추론 과정을 더욱 투명하게 만들어, 논리적 오류를 더 쉽게 식별하고 수정할 수 있게 함

CoT 방법론은 다양한 맥락에서 효과적으로 적용되었음

여기에는 다중 모달(reasoning) 추론(Zhang et al., 2023b), 다중 언어 시나리오(Shi et al., 2023b), 지식 기반 응용 프로그램(Wang et al., 2023b)이 포함

또한, Chain-of-X 방법론의 개발도 다양한 LLM 응용 프로그램에서 도전 과제를 해결하기 위해 급증

여기에는 Chain-of-Explanation, Chain-of-Knowledge, Chain-of-Verification, 그리고 IR Chain-of-Thought 등이 포함

예를 들어, Chain-of-Verification은 초기 응답을 생성한 후 검증 질문을 작성하고, 이러한 질문을 기반으로 응답을 수정하여 응답에서의 사실적 오류 및 환각을 줄이는 방식을 취함

연구와 밀접한 관련이 있는 것은 IR Chain-of-Thought로, CoT를 사용하여 검색되지 않은 정보를 추론하고 보완함으로써 복잡한 추론 작업의 정확성을 향상시키는 방식

1. Chain-of-Verification

Chain-of-Verification은 모델이 초기 응답을 생성한 후, 그 응답이 사실적으로 올바른지 검증하는 과정

이 방법론은 모델이 추가적인 검증 질문을 생성하고, 이를 통해 초기 응답을 평가하거나 수정함으로써 사실적 오류(factual errors) 및 환각(hallucination)을 줄이는 것을 목표로 함

동작 방식:

초기 응답 생성: 모델은 사용자로부터 받은 질문에 대해 첫 번째 응답을 생성
예를 들어, "미국의 수도는 무엇인가?"라는 질문에 모델이 "워싱턴 D.C."라는 응답을 생성
검증 질문 생성: 모델은 생성한 초기 응답을 검증하기 위해 관련된 검증 질문을 추가로 생성
예를 들어, "미국의 수도는 정말 워싱턴 D.C.인가?" 또는 "미국의 수도를 다른 출처에서 확인할 수 있는가?" 같은 질문이 생성
검증 질문 답변: 생성된 검증 질문에 대해 모델은 다시 정보를 수집하거나 추론하여 답을 제공
이때, 검증 질문이 초기 응답을 다시 평가하고 부정확하거나 잘못된 정보를 수정하는 데 사용됨
응답 수정: 검증 과정에서 발견된 오류가 있으면, 모델은 이를 기반으로 초기 응답을 수정
예를 들어, 검증 질문을 통해 초기 응답이 잘못된 정보였음을 확인하면, 정확한 정보로 답을 수정

예시:

초기 질문: "한국의 대통령은 누구인가?"
초기 응답: "문재인"
검증 질문: "현재 한국의 대통령은 문재인인가?" 또는 "한국의 대통령은 언제 문재인에서 바뀌었는가?"
검증 후 수정된 응답: "윤석열"

Chain-of-Verification은 이런 방식으로 초기 응답을 더욱 정확하게 검증하여 환각을 줄이고, 답변의 신뢰성을 높이는 데 중점을 둠

2. IR Chain-of-Thought

IR Chain-of-Thought는 정보 검색과 체계적인 사고 과정을 결합하여, 검색되지 않은 정보나 모델이 직접 가지고 있지 않은 정보를 추론하고 이를 보완하는 방식

이 방법론은 검색된 정보가 부족하거나 불완전한 경우, 모델이 스스로 논리적으로 추론하여 복잡한 문제를 해결하는 데 사용

동작 방식:

초기 정보 검색: 질문에 대한 답을 찾기 위해 retriever가 관련 정보를 외부 데이터베이스나 문서에서 검색
이때 검색된 정보가 충분하지 않을 수도 있음
Chain-of-Thought (CoT) 적용: 검색된 정보가 충분하지 않거나 모호한 경우, 모델은 CoT 방식을 사용해 논리적인 사고 과정을 통해 부족한 정보를 추론
이때 모델은 관련된 지식이나 정보를 바탕으로 추가적인 추론
검색된 정보와 추론된 정보 결합: 검색된 정보만으로는 답을 찾기 어려울 때, 모델은 자신의 지식을 바탕으로 추가적인 추론을 하여 답을 보완
검색된 정보와 추론된 정보가 결합되어 최종 답변이 만들어짐
복잡한 추론 작업에서 정확성 향상: 특히 복잡한 문제에서는 검색된 정보만으로는 충분하지 않을 수 있으므로, CoT를 통해 정보를 보완하고 정확성을 높이는 데 도움

예시:

질문: "첫 번째 컴퓨터 프로그래머는 누구인가?"
검색된 정보: "Ada Lovelace는 프로그래밍 언어를 개발했다."
추론 과정: "Ada Lovelace는 최초로 컴퓨터 프로그램을 작성한 기록이 있다. 이 정보를 바탕으로 최초의 프로그래머로 간주된다."
최종 응답: "Ada Lovelace는 세계 최초의 컴퓨터 프로그래머로 알려져 있다."

이 방법론은 검색된 정보가 부족할 때도 모델이 자신의 추론 능력을 사용해 부족한 정보를 보완하여, 복잡한 문제에 대해 더 높은 정확성을 보장하는 데 중점

Chain-of-X 접근법은 다양한 도메인에서 LLM의 성능을 향상시키는 데 있어 유망한 결과를 보여주었지만, 특히 RALMs의 노이즈가 많은 상황과 미지 시나리오에서 강인성을 향상시키기 위한 응용은 상대적으로 탐구되지 않았음

이러한 연구 공백은 RALMs의 강인성과 신뢰성을 높이기 위해 이러한 전략을 적용하는 추가 연구가 필요함을 의미함

PROPOSED METHOD

OVERVIEW
CON 프레임워크는 검색된 문서에 대해 순차적인 읽기 노트를 생성하여, 외부 문서에서 검색된 정보의 관련성과 정확성을 체계적으로 평가할 수 있도록 함.

순차적인 읽기 노트를 생성함으로써 모델은 각 문서가 쿼리에 얼마나 적합한지를 평가할 뿐만 아니라, 해당 문서 내에서 가장 중요한 신뢰할 수 있는 정보를 식별

이 과정은 무관하거나 신뢰할 수 없는 콘텐츠를 필터링하는 데 도움이 되어, 보다 정확하고 맥락적으로 적합한 응답을 도출하게 함

1. 기본 RAG의 동작 방식
RAG는 질문을 받고 관련 문서를 검색한 후, 검색된 문서의 정보를 바탕으로 답변을 생성하는 방식
retriever가 검색된 문서를 제공하고, reader(LLM)는 그 문서를 바탕으로 답변을 생성
이 과정에서 검색된 정보의 신뢰도나 적합성을 따로 평가하지 않고, 검색된 문서의 정보에 바로 의존하여 답을 생성

RAG의 특징:
문서 활용: 검색된 문서의 내용을 크게 수정하지 않고 활용.
정보 신뢰도 평가 없음: 검색된 정보의 신뢰도나 관련성을 별도로 평가하지 않고 사용.
빠른 응답: 검색된 정보를 바로 사용하므로 빠르게 응답 가능.

2. CON 프레임워크의 동작 방식
CON (Chain-of-Note)는 검색된 문서에 대해 더 세밀한 평가를 거침
순차적인 읽기 노트를 생성하는 방식으로, 검색된 문서의 정보가 쿼리에 얼마나 적합하고 신뢰할 수 있는지 평가한 후 답을 도출

CON의 동작 과정:
순차적인 읽기 노트 생성:검색된 각 문서에 대해 읽기 노트를 생성
이는 각 문서가 질문에 얼마나 적합한지, 그리고 해당 문서 내에서 가장 중요한 정보를 추출하는 역할을 함
이 읽기 노트는 모델이 문서의 신뢰도를 평가하는 데 도움을 주며, 무관하거나 신뢰할 수 없는 정보를 거르기 위한 필터 역할을 함
문서의 관련성 및 신뢰도 평가:각 문서의 적합성을 평가한 후, 해당 문서가 답변에 도움이 될 만한 정보를 가지고 있는지를 판단
검색된 문서가 질문에 직접적인 답을 주지 못하거나, 노이즈가 포함된 경우 이를 인식하고 필터링
최종 응답 생성:모든 문서의 읽기 노트를 바탕으로 최종적으로 가장 신뢰할 수 있고 중요한 정보를 바탕으로 답변을 생성

CON의 특징:
문서 평가: 각 문서의 관련성과 신뢰도를 평가한 후 중요한 정보를 추출.
필터링: 무관하거나 신뢰할 수 없는 정보를 필터링하는 과정이 포함되어 정보의 정확성을 높임.
단계적 과정: 순차적으로 정보를 평가하고, 중요한 정보를 체계적으로 활용하여 최종 답변을 생성.

BACKGROUND OF EXISTING RALMS

이 모델들은 보조 변수 \(d\)를 도입하여, 이는 검색된 문서를 나타냄

이 변수를 포함함으로써 여러 문서를 고려할 수 있게 되어, 더 정보에 입각한 정확한 응답을 생성할 수 있음

RALM 모델은 다음과 같이 표현할 수 있습니다:

\[
p(y | x) = \sum_{i} p(y | d_i, x) p(d_i | x)
\]

여기서 \(x\)는 입력 쿼리를 나타내고, \(y\)는 모델이 생성한 응답을 의미

실무에서는 잠재적 출처가 너무 많아 모든 문서에 대한 합을 계산하는 것이 불가능

따라서 가장 일반적인 접근 방식은 상위 \(k\)개의 문서를 선택하고, 이를 입력의 일부로 제공하여 \(d_1, \dots, d_k\)로 표시된 문서를 사용하는 것

이에 따라 다음과 같이 계산됩니다:

\[
p(y | x) = \sum_{i=1}^{k} p(y | d_i, x) p(d_i | x)
\]

그러나 기존 RALM에는 몇 가지 제한 사항이 있음

1) Risk of Surface-Level Processing
언어 모델이 답변을 직접 생성할 때, 질문이나 문서의 뉘앙스를 깊이 이해하지 않고 표면적인 정보에 의존할 위험이 존재
이는 특히 복잡하거나 간접적인 질문에서 문제를 야기할 수 있습니다.
2) Difficulty in Handling Contradictory Information
서로 상반되는 정보를 포함한 문서가 있을 때, 직접적인 답변 생성은 어려워짐
모델은 이러한 모순을 해결하거나 어떤 정보가 더 신뢰할 수 있는지 판단하는 데 어려움을 겪을 수 있음
3) Reduced Transparency and Interpretability

직접적인 답변 생성은 모델이 결론에 도달한 과정을 제한적으로만 제공
이로 인해 사용자가 모델의 결론을 이해하기 어려울 수 있음
4) Overdependence on Retrieved Documents
직접적인 답변 생성은 검색된 문서의 콘텐츠에 과도하게 의존하게 되어(즉, 검색된 문서에서 정보를 추출하는 경향(Shi et al., 2023a)) 모델의 내재적 지식 기반을 무시할 수 있음

이는 특히 검색된 문서가 노이즈가 많거나 오래된 경우에 문제가 될 수 있음

THE CHAIN - OF - NOTE FRAMEWORK
CHAIN-OF-NOTE(CON) 프레임워크는 RALMs가 직면한 문제를 해결하는 방법을 제공

이 프레임워크는 검색된 문서를 구조화된 노트 작성 과정을 통해 비판적으로 평가할 수 있는 능력을 크게 향상시킴

구체적으로, 각 문서에 대해 간결하고 맥락적으로 관련된 요약 또는 노트를 생성

이 방법은 모델이 외부 문서에서 얻은 정보의 관련성과 정확성을 체계적으로 평가할 수 있게 하며, 순차적인 읽기 노트를 생성함으로써 CON은 각 문서의 적합성을 평가하고 가장 신뢰할 수 있는 정보를 식별하며, 상충되는 정보를 해결

이 접근 방식은 무관하거나 신뢰할 수 없는 콘텐츠를 효과적으로 필터링하여 더 정확하고 맥락적으로 관련된 응답을 도출하게 함

주어진 입력 질문 \(x\)와 \(k\)개의 검색된 문서 \([d_1, \dots, d_k]\)에 대해 모델은 다수의 세그먼트로 구성된 텍스트 출력을 생성하는 것을 목표로 함

여기서 \(y_{d_i}\)는 해당 문서 \(d_i\)에 대한 읽기 노트를 나타내며, 개별 읽기 노트를 생성한 후 모델은 정보를 종합하여 최종 응답 \(y\)를 생성

1. 입력 질문 (\(x\))과 검색된 문서들 (\([d_1, \dots, d_k]\))의 역할
- 질문 (\(x\)): 사용자가 모델에게 던진 질문을 의미
- 예시:
"세계 최초의 컴퓨터 프로그래머는 누구인가?"

- 검색된 문서들 (\([d_1, \dots, d_k]\)): 모델이 질문에 답하기 위해 외부 데이터베이스에서 검색해온 관련 문서들을 의미
이 문서들은 모델이 답을 생성하는 데 사용될 정보의 출처(예시로는 문장이지만 실제로는 전체 문서)
- 예시:
- \(d_1\): "Ada Lovelace는 19세기 수학자로, 최초의 컴퓨터 프로그램을 작성한 것으로 알려져 있다."
- \(d_2\): "찰스 배비지는 Ada Lovelace와 함께 계산기를 개발했다."

2. 읽기 노트 (\(y_{d_i}\))의 역할
- 읽기 노트 (\(y_{d_i}\))는 각 검색된 문서 (\(d_i\))에 대해 요약된 핵심 정보를 담은 내용
- 즉, 모델은 문서 \(d_i\)를 읽고, 그 문서에서 가장 중요한 정보를 추출한 후 읽기 노트 (\(y_{d_i}\))라는 형태로 요약 생성

- 예를 들어, 문서 \(d_1\)과 \(d_2\)에 대한 읽기 노트는 각각 다음과 같음
- \(y_{d_1}\): "Ada Lovelace는 최초의 컴퓨터 프로그램을 작성했다."
- \(y_{d_2}\): "Ada Lovelace는 찰스 배비지와 함께 계산기를 개발했다."

3. 읽기 노트를 종합하여 최종 응답 생성 (\(y\))
- 각 문서에서 생성된 읽기 노트들 (\(y_{d_1}, y_{d_2}, \dots, y_{d_k}\))을 종합하여 최종적인 답변 (\(y\))을 생성
- 모델은 모든 읽기 노트를 바탕으로 최종 답변을 도출하는데, 이는 각 문서에서 가장 중요한 정보를 취합하여 일관성 있는 답을 제공하기 위함
- 최종 응답 \(y\)는 이렇게 생성된 읽기 노트들을 바탕으로 만들어짐
- \(y\): "Ada Lovelace는 최초의 컴퓨터 프로그램을 작성했으며, 찰스 배비지와 함께 계산기를 개발했다."

CHAIN-OF-NOTE(CON)의 구현은 세 가지 주요 단계로 구성

(1) 노트 설계

(2) 데이터 수집

(3) 모델 학습

노트 설계
프레임워크는 검색된 문서가 입력된 질문과 관련된 정도에 따라 세 가지 유형의 읽기 노트를 생성

첫째, 문서가 질문에 직접 답하는 경우 모델은 이 정보를 바탕으로 최종 응답을 작성(그림 2(a) 참조).

둘째, 검색된 문서가 질문에 직접 답하지 않지만 유용한 맥락을 제공하는 경우 모델은 이 정보를 내재적 지식과 결합하여 답변을 도출(그림 2(b) 참조)

셋째, 검색된 문서가 무관하고 모델이 충분한 지식을 가지고 있지 않은 경우, 모델은 "알 수 없음"으로 응답(그림 2(c) 참조).

이 접근 방식은 인간의 정보 처리 방식을 반영하여 직접적인 검색, 추론적 사고, 그리고 지식 부족 인식 간의 균형을 잡음

데이터 수집
모델이 이러한 읽기 노트를 생성할 수 있도록 하기 위해 적절한 학습 데이터를 수집하는 것이 필수적

각 읽기 노트를 수동으로 주석 처리하는 것은 많은 자원이 소요되므로, ChatGPT와 같은 최신 언어 모델을 사용하여 노트 데이터를 생성

이 방법은 비용 효율적이며 재현성을 향상시킴

먼저 NQ 학습 데이터셋에서 10,000개의 질문을 무작위로 샘플링하여 이 프로세스를 시작

이후 ChatGPT에 특정 지침과 컨텍스트 예시를 제시하여 세 가지 유형의 노트를 생성하도록 요청

ChatGPT의 예측 품질은 전체 데이터 세트로 진행하기 전에 소규모 데이터 부분에서 인간 평가를 통해 확인

NQ 데이터셋은 검색 엔진에서 실사용자 쿼리가 포함된 다양한 질문을 제공하기 때문에 주요 데이터셋으로 선택

그러나 모델의 적응성을 보장하기 위해 TriviaQA, WebQ, RealTimeQA와 같은 세 가지 추가 오픈 도메인 데이터셋에서도 모델의 성능을 테스트하여 도메인 외 데이터에 대한 일반화 능력을 확인

모델 학습
ChatGPT로부터 10,000개의 학습 데이터를 수집한 후, 우리는 이를 사용하여 LLaMa-2 7B 모델 기반의 CHAIN-OF-NOTE 모델을 학습

이를 위해 질문과 문서, 지시문을 함께 연결하여 모델이 노트와 답변을 생성하도록 표준 방식으로 학습

당사에서 개발한 LLaMa-2 7B 모델은 각 문서에 대한 읽기 노트를 순차적으로 생성하여 입력 쿼리와의 관련성을 평가

응답은 문서의 관련성에 따라 생성되어 정확성을 높이고 잘못된 정보를 줄임

무관한 문서의 경우, 모델은 내재적 지식에 의존해 답변하거나 답변을 결정할 수 없을 경우 "알 수 없음"으로 응답

노트 및 답변에 대한 Weighted Loss 전략
학습 접근 방식의 독특한 점은 가중치 손실 전략을 구현한 것

이는 읽기 노트와 답변에 할당된 손실 가중치를 다양화하는 것

초기 연구에서 두 구성 요소에 동일한 가중치를 할당하면 최종 답변의 품질이 떨어지고 수렴 시간이 길어질 수 있음을 관찰

이는 주로 노트가 길기 때문에 손실에 불균형적으로 기여하는 것이 원인

이 문제를 극복하기 위해 손실 함수의 초점을 교차로 변경

50%의 경우, 전체 노트 및 답변 시퀀스 \([y_{d_1}, \dots, y_{d_k}, y]\)에 대한
다음 토큰 예측 손실을 계산하고, 나머지 50%의 경우에는 답변 \(y\)에 대해서만 손실을 계산

이 전략은 모델이 맥락적으로 풍부한 읽기 노트를 생성하는 방법을 학습하는 동시에 최종 답변의 정확성과 신뢰성에 중점을 두도록 설계

1. 기본 손실 함수(Loss Function)
머신러닝 모델은 학습 과정에서 손실 함수를 사용하여 모델의 예측과 실제 값 사이의 차이를 측정
이 손실 값이 작을수록 모델이 더 정확하게 학습된 것
일반적으로, 모델은 여러 학습 데이터에 대한 손실 값을 최소화하도록 가중치(weight)를 조정
이 프레임워크에서는 읽기 노트와 최종 답변 두 가지가 학습의 결과물이기 때문에, 각 부분에 대한 손실 값을 계산해야 함

2. 읽기 노트와 답변의 길이 차이
읽기 노트는 보통 검색된 문서에서 추출한 요약 정보이고, 답변은 사용자에게 제공되는 최종 응답
읽기 노트가 문서의 내용을 요약하므로, 일반적으로 읽기 노트는 답변보다 길어질 수 있음
길이가 길다는 것은 학습 중 손실 계산에 더 많은 영향을 줄 수 있다는 의미
노트가 길면: 노트의 길이 때문에 손실 함수가 노트 생성에 더 많은 비중을 두게 되고, 이로 인해 최종 답변의 손실은 상대적으로 적게 반영될 수 있음
그 결과, 최종 답변의 품질이 저하될 수 있고, 학습 속도가 느려질 수 있음

3. 균형 맞추기: Weighted Loss 전략
이를 해결하기 위해 읽기 노트와 최종 답변에 다른 가중치(weighted loss)를 적용하여 손실의 균형을 맞춤
읽기 노트는 길어서 손실 함수에서 더 큰 비중을 차지하게 되고, 그 결과 최종 답변의 손실이 적게 반영되어 최종 답변의 품질이 떨어지는 문제가 발생
해결 방법: Weighted Loss
가중치 손실 전략을 적용하여 읽기 노트와 최종 답변 각각에 할당된 손실의 비중을 조정
이를 통해 읽기 노트와 최종 답변에 대한 손실이 균형 있게 반영되도록 함
예를 들어, 읽기 노트의 손실이 너무 크게 반영되는 문제를 해결하기 위해, 노트에 대한 손실에 낮은 가중치를 부여하고, 최종 답변에 대한 손실에는 상대적으로 높은 가중치를 부여

4. 50%의 경우: 교차로 초점을 변경
이 전략에서 언급한 50%의 경우는, 학습 과정에서 두 가지 다른 손실 가중치 적용 방식을 교차로 번갈아 사용한다는 뜻

첫 번째 전략
읽기 노트 전체와 최종 답변 시퀀스 \([y_{d_1}, \dots, y_{d_k}, y]\)에 대해 손실을 계산하는 방식.
두 번째 전략
최종 답변 \(y\)에 더 높은 가중치를 두고, 읽기 노트 \([y_{d_1}, \dots, y_{d_k}]\)에는 상대적으로 낮은 가중치를 부여하여 학습

구체적인 설명:
50%의 경우: 학습의 절반 동안은 읽기 노트와 최종 답변 전체 시퀀스에 대해 손실을 계산
이때, 읽기 노트가 길기 때문에 손실이 읽기 노트에 더 많이 반영될 수 있지만, 최종 답변도 손실에 포함
나머지 50%의 경우: 학습의 나머지 절반 동안은 최종 답변에 더 높은 가중치를 부여하고, 읽기 노트에는 상대적으로 낮은 가중치를 둠
이 방식은 최종 답변의 품질을 더 높이기 위한 전략

EXPERIMENTS

EXPERIMENTAL SETTINGS AND EVALUATIONS
오픈 도메인 질문 답변(QA)에서 세 가지 벤치마크 데이터셋을 사용하여 종합적인 실험을 수행

1) NQ

2) TriviaQA

3) WebQ

추가로, "알 수 없음" 강인성을 평가하기 위해 RealTimeQA를 특별 케이스로 사용

평가는 두 가지 평가 집합, 즉 전체 집합 및 하위 집합 평가를 기반으로 진행

첫째로, 전통적인 오픈 도메인 QA 평가와 유사하게, 전체 테스트 세트의 모든 질문을 사용하여 모델의 전반적인 QA 성능을 평가

문서는 DPR을 사용하여 검색되었고, 상위 \(k\)개의 문서가 생성기에 입력

Izacard & Grave, Karpukhin et al.에서 사용한 오픈 도메인 QA 설정과 동일한 테스트 분할을 준수

TriviaQA의 경우, LLaMa-2 평가가 Wikipedia 개발 세트에서 수행

따라서 해당 성능과의 비교를 용이하게 하기 위해 동일한 개발 세트에서 평가를 수행

두 번째로, 모델의 노이즈 강인성과 "알 수 없음" 강인성을 평가하기 위해, 검색된 목록에 포함된 관련 문서를 가진 질문들에서 하위 집합을 추출

각 검색된 문서를 열거하여 해당 질문에 대해 golden document인지 여부를 결정

노이즈 비율 \(r\)에 기반하여, 예를 들어 상위 \(k\)개의 문서가 생성기에 필요한 경우, \(k \cdot r\)는 노이즈 문서의 개수이고 \(k \cdot (1 - r)\)는 관련 문서의 개수

예를 들어, 노이즈 비율이 20%이고 상위 5개의 문서가 필요한 경우, 4개는 관련 문서이고 1개는 무관한 문서

검색된 문서 중에서 관련 문서가 없는 경우, 해당 질문은 강인성 평가에서 제외

따라서 하위 집합의 크기는 원래 테스트 세트보다 작음

BASELINE METHODS
공정한 비교를 위해 모든 모델은 동일한 학습 데이터를 사용해 훈련되었으며, 주요 차이는 입력과 출력 형식에 있음

방법 섹션에서 설명한 대로, 입력 질문을 \(x\), 그에 해당하는 답변을 \(y\)로 나타냅니다. \(d_i\)는 \(i\)번째 검색된 문서를 나타내며, \(y_{d_i}\)는 해당 문서에 대한 읽기 노트

- LLaMa-2 w/o IR

이 모델은 외부에서 검색된 정보에 의존하지 않고 입력 질문에서 직접 답변을 생성하도록 훈련

본질적으로 이 모델은 주어진 질문 \(x\)를 직접 답변 \(y\)로 변환하는 함수를 학습
- DPR + LLaMa-2

이 접근 방식은 질문뿐만 아니라 검색된 문서를 통합하여 답변을 생성하는 모델을 훈련

이 모델은 질문 \(x\)와 검색된 문서 집합 \(\{d_1, \dots, d_k\}\)를 답변 \(y\)로 변환하는 함수를 학습
- DPR + LLaMa-2 with CHAIN-OF-NOTE

이 모델은 최종 답변을 작성하기 전에 각 검색된 문서에 대해 읽기 노트를 생성하는 훈련 과정을 거침

질문 \(x\)와 검색된 문서 \(\{d_1, \dots, d_k\}\)를 처리하여 읽기 노트 \(\{y_{d_1}, \dots, y_{d_k}\}\)와 최종 답변 \(y\)를 생성하는 함수를 학습

EVALUATION METRICS
오픈 도메인 QA 성능 평가를 위해 두 가지 널리 인정받은 지표, 즉 Exact Match, EM와 F1 점수를 사용

EM 점수의 경우, 답변이 제공된 목록에서 수용 가능한 답변과 일치하는지 여부를 통해 정답으로 간주

F1 점수는 예측 답변과 정답을 단어의 집합으로 취급하고, 예측과 정답 간의 평균 중복을 계산하여 측정

또한, "알 수 없음" 강인성을 평가하기 위해 주어진 질문이 모델의 지식 범위를 벗어나는 경우 거부율(RR)을 사용

EVALUATION ON OVERALL QA PERFORMANCE
평가에서 세 가지 오픈 도메인 QA 벤치마크에서 다양한 기준과 우리 방법을 비교

DPR(검색 기능을 포함한 LLaMa-2) 모델이 검색 기능 없이 LLaMa-2 모델보다 일관되게 더 우수한 성능을 보임

이러한 향상은 검색 과정의 효율성과 밀접한 관련이 있음

표 1에서 나타난 바와 같이, DPR은 NQ와 TriviaQA 데이터셋에서 WebQ에 비해 훨씬 우수한 검색 성능을 보임

또한, 표준 RALM과 비교한 CON이 통합된 향상된 RALM은 꾸준히 더 나은 성능을 보임

세 데이터셋 전체에서 평균적으로 EM 점수가 +1.97 향상

더 자세히 살펴보면, 이 향상은 DPR이 관련 문서를 성공적으로 검색했는지 여부에 따라 다르게 나타남

구체적으로, NQ 데이터셋에서 DPR이 관련 문서를 검색했을 때 평균 향상은 +1.2였으며, 검색하지 않았을 때는 +2.3이었음

이 차이는 CON이 첫 번째 검색 단계에서 더 많은 노이즈 문서가 검색되는 시나리오에서 RALM을 개선했음을 시사

이 관찰은 이후 실험 결과에서 설명된 노이즈 강인성에 대한 결과와도 일치

EVALUATION ON NOISE ROBUSTNESS
노이즈 강인성 평가는 두 가지 시나리오에서 수행

1) 검색을 통해 얻은 노이즈 문서(관련 문서를 제거하고 상위 순위의 무관한 문서를 유지)와 Wikipedia 전체에서 무작위로 샘플링한 문서를 사용하는 경우. 검색된 노이즈 문서에는 입력 질문과의 의미적 유사성으로 인해 오해의 소지가 있는 정보가 포함될 수 있으며, 무작위 문서는 완전한 노이즈를 나타냄
표 3에서 알 수 있듯이, CON을 장착한 RALM은 특히 노이즈 문서만 있는 시나리오에서 표준 RALM보다 일관되게 더 나은 성능을 보임

평균적으로 세 개의 오픈 도메인 QA 데이터셋에서 완전히 노이즈가 많은 문서에 대해 EM 점수가 +7.9 향상

낮은 노이즈 비율로 실험한 결과도 CON이 가져온 개선을 일관되게 보여주었으며, 이는 표 2에 제시된 전체 성능과 일치

완전히 노이즈가 많은 문서가 제공된 경우, 표준 RALM과 CON이 모두 검색 기능 없는 원래 LLaMa-2보다 성능이 떨어지는 것으로 나타남.

이는 RALM이 노이즈 정보에 의해 혼란스러워져서 더 많은 환각(hallucination)을 유발할 수 있음을 시사

그러나 우리 모델은 거의 검색 기능 없는 LLaMa-2만큼 성능을 발휘할 수 있어, 노이즈 강인성과 무관한 정보를 무시하는 능력을 나타냄

추가로, 무작위 노이즈와의 비교에서 중요한 몇 가지 관찰이 있었음

그림 3은 표준 RALM과 CON을 장착한 RALM 모두 무작위 문서를 사용한 경우, 검색된 노이즈 문서보다 더 나은 성능을 보였음을 보여줌

이는 의미적으로 관련된 노이즈 문서가 언어 모델을 오도하여 잘못된 정보를 생성할 가능성이 더 크다는 것을 나타냄

또한, 두 노이즈 시나리오 모두에서 우리 방법은 표준 RALM에 비해 강인성이 향상된 것으로 나타남

EVALUATION ON UNKNOWN ROBUSTNESS

표 4에서 알 수 있듯이, CON을 장착한 RALM은 미지 시나리오를 처리하는 데 있어 뛰어난 강인성을 보였으며, 특히 RealTimeQA 벤치마크에서 두드러짐

이 벤치마크는 모델의 도메인 범위를 완전히 벗어난 것으로, LLaMa-2 사전 훈련 데이터에 포함되지 않은 실시간 정보를 포함하고 있음

그럼에도 불구하고, 모델은 시간이 지나도 일관된 답변을 제공할 수 있는 경우가 존재

표준 RALM 시스템과 비교했을 때, 우리의 방법은 미지 시나리오에서 답변을 거부하는 능력이 +10.5 이상으로 크게 개선

평가는 거부율(RR)에 기반하며, 이는 거부된 질문의 수/전체 질문의 수로 계산

이는 모델이 사전 학습 단계에서 배우지 않은 정보나 익숙하지 않은 정보를 식별하고 무시하는 능력이 향상되었음을 보여줌

CASE STUDIES

사례 연구에서는 표 5에 설명된 대로 표준 RALM이 생성한 응답과 CoN을 통합한 향상된 RALM의 응답을 비교

이 사례들은 각 모델이 검색된 문서에서 정보를 처리하고 해석하는 방식의 차이를 강조

첫 번째 사례 연구에서는 미국에서 가장 최근에 열린 하계 올림픽에 대한 질문

표준 RALM은 "2016년 시카고 올림픽 유치 시도"에 대한 언급에 혼동되어, 콘텐츠를 깊이 이해하지 못하고 2016년이라는 더 최근의 해에 초점을 맞춰 부정확한 답변

반면, CoN을 사용한 RALM은 이 정보를 신중하게 분석

시카고가 2016년 올림픽을 유치하려 했지만, 성공적인 유치가 확정되지 않았음을 확인하고, 미국에서 가장 최근에 열린 올림픽이 1996년임을 올바르게 결론

두 번째 사례 연구는 첫 번째 Jnanpith 상 수상자의 언어를 식별하는 것을 다룸

여기서 표준 RALM은 여러 문서에서 정보를 종합하지 못함, G. Sankara Kurup을 수상자로 식별했지만, 그의 작품 언어와 이 정보를 연결하지 못함

반면, CoN을 사용한 RALM은 두 문서에서 세부 정보를 효과적으로 결합

첫 번째 문서가 Kurup의 수상을 언급한 반면, 두 번째 문서가 부족했던 언어 세부 정보를 제공하여 올바르게 'Malayalam'이라는 답변을 도출

두 사례 모두 CoN이 여러 출처에서 정보를 이해하고 통합하는 데 있어 우수한 능력을 발휘했음을 보여줌

표준 RALM이 종종 표면적 세부 사항만을 포착하는 것과 달리, 우리의 모델은 더 깊이 파고들어, 보다 미묘하고 맥락적으로 관련된 정보를 식별하여 정확한 결론을 도출

CONCLUSION

본 논문에서는 Retrieval-Augmented Language Models (RALMs)의 강인성을 향상시키기 위한 새로운 방법론인 CHAIN-OF-NOTING (CON) 프레임워크를 소개

CON의 핵심 개념은 검색된 각 문서에 대해 순차적인 읽기 노트를 생성하는 데 있음

이 과정은 문서가 제시된 질문과 얼마나 관련이 있는지 심층적으로 평가할 수 있게 하며, 이러한 정보를 종합하여 최종 답변을 작성하는 데 도움을 줌

우리는 ChatGPT를 사용해 CON의 초기 학습 데이터를 생성했으며, 이를 LLaMa-2 7B 모델을 사용하여 더욱 정교하게 다듬었음

여러 오픈 도메인 QA 벤치마크에서 수행한 테스트 결과, CON을 통합한 RALM이 전통적인 RALM에 비해 성능이 크게 향상된 것을 확인했습니다.

A APPENDIX

A.1 DATASETS

TriviaQA : 원래 퀴즈 및 퀴즈 리그 웹사이트에서 수집된 답변과 함께 제공되는 퀴즈 질문 세트
WebQ : Google Suggest API를 사용하여 선택된 질문들로, 답변은 Freebase의 엔터티(entity)로 구성
NQ : 실제 Google 검색 쿼리에서 수집된 질문으로, 답변은 인간 주석자가 식별한 Wikipedia 기사 내의 하나 또는 여러 범위(spans)

A.2 IMPLEMENTATION DETAILS

검색 단계에서 우리는 DPR을 사용하여 Wikipedia에서 문서를 검색

우리는 GitHub에 호스팅된 공식 DPR 저장소에서 직접 모델을 로드하여 접근

검색 후, LLaMA-2 모델의 미세 조정은 128의 배치 크기로 3 에포크 동안 실행되었으며, DeepSpeed 라이브러리와 ZeRO 옵티마이저를 활용하여 bfloat16 정밀도로 수행

학습률은 {1e-6, 2e-6, 5e-6, 1e-5, 2e-5}로 설정되었으며, 경험적으로 5e-6에서 모델 성능이 가장 좋았기 때문에, 보고된 모든 결과에서 이 학습률을 표준으로 사용

모든 실험에서 greedy decoding이 적용되어 결정론적 생성이 보장

A.3 INSTRUCTION PROMPTS

표준 RALM의 경우, 지시문은 다음과 같습니다:
- 작업 설명: 주요 목표는 특정 질문에 간략하게 답변하는 것입니다.
CON을 통합한 RALM의 경우, 지시문은 다음과 같습니다:
- 작업 설명:
  1. 주어진 질문과 다섯 개의 Wikipedia 구절을 읽고 관련 정보를 수집하세요.
  2. 이러한 구절에서 핵심 사항을 요약한 읽기 노트를 작성하세요.
  3. 주어진 질문과 Wikipedia 구절의 관련성에 대해 논의하세요.
  4. 일부 구절이 주어진 질문과 관련이 있다면, 구절을 바탕으로 간략한 답변을 제공하세요.
  5. 구절이 관련이 없을 경우, 구절을 고려하지 않고 직접 답변을 제공하세요.

'논문' 카테고리의 다른 글

[논문 리뷰] 32. Chain-of-Knowledge (16)	2024.09.15
[논문 리뷰]31. CHAIN - OF -VERIFICATION REDUCES HALLUCINATION IN L ARGE LANGUAGE MODELS (1)	2024.09.13
[논문리뷰]29. Mixture-of-Agents Enhances Large Language Model Capabilities (4)	2024.09.08
[논문리뷰]28. BATCH PROMPT: ACCOMPLISH MORE WITH LESS (6)	2024.08.31
[논문리뷰]27. SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION (0)	2024.08.24

ABOUT ME

Memorize Memorize

Introduction

1. 모델의 본래 지식과 외부 정보의 상호작용

2. 사실 기반 질문과 환각 현상

RELATED WORK

Retrieval-Augmented Language Models (RALMs)

CHAIN - OF - X APPROACHES IN LARGE LANGUAGE MODELS

1. Chain-of-Verification

동작 방식:

예시:

2. IR Chain-of-Thought

동작 방식:

예시:

BACKGROUND OF EXISTING RALMS

EVALUATION ON UNKNOWN ROBUSTNESS

CASE STUDIES

A APPENDIX

A.1 DATASETS

A.2 IMPLEMENTATION DETAILS

A.3 INSTRUCTION PROMPTS

'논문' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Introduction

1. 모델의 본래 지식과 외부 정보의 상호작용

2. 사실 기반 질문과 환각 현상

RELATED WORK

Retrieval-Augmented Language Models (RALMs)

CHAIN - OF - X APPROACHES IN LARGE LANGUAGE MODELS

1. Chain-of-Verification

동작 방식:

예시:

2. IR Chain-of-Thought

동작 방식:

예시:

BACKGROUND OF EXISTING RALMS

EVALUATION ON UNKNOWN ROBUSTNESS

CASE STUDIES

A APPENDIX

A.1 DATASETS

A.2 IMPLEMENTATION DETAILS

A.3 INSTRUCTION PROMPTS

'논문' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바