-
[논문 리뷰] 32. Chain-of-Knowledge논문 2024. 9. 15. 22:14
아 논문 너무 마너...
쉽지 않아 1일 1논문 하려는거..
Chain-of-Knowledge(CoK)이라는 새로운 프레임워크를 소개
이 프레임워크는 이질적인 소스들로부터 grounding information를 동적으로 통합하여 대형 언어 모델(LLM)을 보강
이는 사실적인 논리를 제공하고 생성 시 발생하는 환각을 줄이는 결과를 가져옴
구체적으로, CoK는 세 가지 단계로 구성
1) 추론 준비
2) 동적 지식 적응
3) 답변 통합
지식이 요구되는 질문이 주어지면, CoK는 먼저 여러 예비 논리와 답변을 준비하며 관련 지식 도메인을 식별
- 추론 준비 (Reasoning Preparation):
먼저 CoK는 주어진 질문에 대해 몇 가지 예비 논리(즉, 이유 또는 단계별 추론)를 생성하고, 관련 지식 도메인을 식별
이는 질문이 지식 기반인지 확인하고, 그에 맞는 지식 도메인을 선택하여 문제를 해결할 방향을 정하는 과정
예를 들어, 물리학 문제라면 물리학 지식 도메인을 선택하고, 의학적 문제라면 의학적 지식 도메인을 선택
이는 LLM의 초기 추론 단계를 구성하는 중요한 부분
CoK처럼 질문의 범위를 축소하고 특정 지식 도메인을 활용하는 방식과, 제너럴하게 접근하는 방식 사이에는 실제로 차이가 발생할 수 있음
그 차이는 주로 다음과 같은 측면에서 나타납니다:
1) 정확성
제너럴한 접근
제너럴하게 질문에 답변하는 방식은 광범위한 정보를 다루는 경우가 많아, 특정한 도메인 지식이 필요한 경우에도 잘못된 정보나 불필요한 정보가 포함될 수 있음
이는 LLM이 더 많은 '환각(hallucination)'을 일으킬 수 있는 가능성을 높임
즉, 자신이 훈련된 범위에서 일부 맞지 않는 답을 할 확률이 높아짐
특정 도메인 기반 접근
CoK는 질문이 속한 도메인에 맞게 특정 지식을 검색해 답변을 도출하기 때문에, 더 신뢰할 수 있고 정확한 답변을 제공할 가능성이 높음
예를 들어, 의학적 질문에 대해 의학적 지식을 우선적으로 검색하고 사용하는 것이 보다 정확한 답변을 생성할 수 있게 함
2) 정보의 신뢰성
제너럴한 접근
LLM이 일반적으로 대답할 때는, 해당 도메인에 대한 확실한 정보를 사용하지 않을 수 있음
예를 들어, 물리학 질문에 대해 자연어 처리나 철학 도메인의 정보를 섞어 사용할 가능성이 생기며, 이는 답변의 신뢰도를 낮출 수 있음
특정 도메인 기반 접근
CoK는 관련된 도메인에서 정확한 정보를 선택해 그에 기반한 답변을 하므로, 정보의 신뢰성을 유지하고 불필요한 정보가 포함되지 않게 됨
3) 효율성
제너럴한 접근
제너럴한 접근은 모든 범위에서 지식을 고려하기 때문에 처리 시간이 더 오래 걸릴 수 있고, LLM이 해당 지식을 찾기 위해 더 많은 자원을 사용할 수 있음
특정 도메인 기반 접근
CoK는 필요한 도메인을 빠르게 식별하고 그 범위 내에서 필요한 지식을 찾기 때문에 효율성이 높아질 수 있음
필요한 지식만을 추출하기 때문에 처리 속도도 향상될 수 있음- 동적 지식 적응 (Dynamic Knowledge Adapting):
첫 번째 단계에서 선택된 지식 도메인에서 실제 지식을 검색하여 기존의 추론을 점진적으로 수정하는 단계
여기서는 적응형 쿼리 생성기(Adaptive Query Generator, AQG)를 사용하여 SPARQL, SQL, 자연어 등의 쿼리를 생성하고, 이를 바탕으로 관련 지식을 검색하여 추론을 교정
이 과정은 오류 전파를 막기 위해 단계적으로 이루어지며, 하나의 추론이 교정되면 그 결과를 바탕으로 다음 추론을 생성하고 교정하는 방식으로 진행
1. 도메인 범위 좁히기 (LLM 내부 추론):
처음에 LLM은 주어진 질문을 분석하여 이 질문이 어떤 지식 도메인과 관련이 있는지 결정
예를 들어, "심장이 얼마나 많은 혈액을 펌프하는가?"라는 질문이 주어지면, LLM은 이 질문이 의학 도메인과 관련이 있다고 판단
이렇게 지식 도메인을 좁히는 것은 LLM이 해당 질문에 관련된 지식이 무엇인지를 결정하고, 그 범위 내에서 보다 구체적인 답변을 도출할 수 있게 도움
2. 실제 지식 검색 (외부 DB 또는 지식 기반에서 정보 가져오기):
도메인을 좁힌 후, CoK는 LLM이 학습한 정보만으로는 정확한 답을 제공하기 어려울 수 있으므로, 외부 지식 출처에서 정확한 정보를 검색
여기서 적응형 쿼리 생성기(AQG)가 중요한 역할
AQG는 선택된 도메인에 맞는 쿼리(SPARQL, SQL, 자연어 쿼리 등)를 생성해 외부 데이터베이스나 지식 그래프(Wikidata, Wikipedia 등)에서 필요한 정보를 가져옴
예를 들어 설명하자면:
질문
심장이 하루에 몇 리터의 혈액을 펌프하는가?"라는 질문이 주어졌다고 가정
도메인 선택
LLM은 이 질문을 분석하고 "이 질문은 의학과 관련이 있다"고 판단하여 '의학' 도메인을 선택
실제 지식 검색
의학 도메인 내에서 심장의 기능에 대한 정보를 가져오기 위해, CoK는 적응형 쿼리 생성기(AQG)를 사용해 의학 관련 데이터베이스(예: UpToDate 또는 Wikipedia)에서 "하루에 심장이 펌프하는 혈액의 양"에 대한 구체적인 정보를 검색
이때 AQG는 자연어 쿼리나 SPARQL, SQL과 같은 구조화된 쿼리를 생성해, 외부 데이터베이스나 지식 그래프에서 정보를 가져오는 것
그 결과, "심장이 하루에 약 7,000~8,000리터의 혈액을 펌프한다"라는 정확한 정보를 얻게 됨
기존 추론 교정
처음 LLM이 추론한 값이 부정확하거나 부족했다면, 검색된 외부 지식을 바탕으로 이 추론을 교정하고 더 정확한 답변을 제공
예를 들어, 처음에 "심장은 하루에 5,000리터의 혈액을 펌프한다"는 부정확한 추론을 했을 수 있는데, 외부 지식을 통해 이 정보를 "7,000~8,000리터"로 교정하는 것동적 지식 적응(Dynamic Knowledge Adapting)은 CoK(Chain-of-Knowledge) 프레임워크의 중요한 단계 중 하나로, 선택된 지식 도메인에서 실제 지식을 검색해 기존 추론을 교정하고 점진적으로 수정하는 과정
이 과정은 크게 세 가지 중요한 요소로 구성
1. 적응형 쿼리 생성기(Adaptive Query Generator, AQG)
적응형 쿼리 생성기(AQG)는 CoK의 핵심 도구로, 다양한 지식 도메인에서 필요한 정보를 검색하기 위해 쿼리를 생성하는 역할
각 지식 도메인에서의 데이터는 구조화된 형태와 비구조화된 형태로 나뉘며, AQG는 이들을 효과적으로 다룰 수 있음
1) SPARQL 쿼리
구조화된 지식 그래프(예: Wikidata)에서 정보를 추출할 때 사용
SPARQL은 특정 엔티티나 관계를 쿼리하는 데 적합한 언어
예를 들어, 특정 인물의 생년월일을 검색할 때 SPARQL 쿼리를 생성해 정확한 정보를 가져올 수 있음
2) SQL 쿼리
데이터베이스 또는 표 형식의 정보에서 데이터를 검색할 때 사용
예를 들어, 표에 기록된 데이터를 SQL 쿼리로 검색해 필요한 정보를 추출할 수 있음
3) 자연어 쿼리
비구조화된 정보(예: Wikipedia 문서, Flashcards)에서 정보를 검색할 때 사용
이 경우는 자연어 질문을 기반으로 정보를 검색하는 방식
AQG는 질문의 성격에 맞는 적절한 쿼리를 생성하며, 이 쿼리는 선택된 지식 도메인에 맞춰 실행
2. 점진적인 추론 교정 (Progressive Rationale Correction)
CoK에서 중요한 점은 점진적인 추론 교정 방식
즉, 전체 답변을 한 번에 생성하는 것이 아니라, 한 단계씩 논리적 추론을 생성하고 그 추론이 맞는지 확인한 후, 맞지 않으면 교정하는 과정
먼저, 초기 추론을 생성한 후 AQG를 통해 검색된 외부 지식을 바탕으로 해당 추론이 올바른지 확인
이때 추론이 틀렸다면, 검색된 지식을 바탕으로 추론을 교정
예를 들어, "1980년에 태어난 배우는 누구인가?"라는 질문에서 초기 추론이 틀렸다면, 검색된 지식(예: SPARQL 쿼리 결과)을 바탕으로 배우의 생년월일을 교정
교정된 추론을 바탕으로 다음 단계의 추론을 생성
이렇게 각 추론이 맞물려 가는 방식으로 오류가 계속해서 수정되고, 교정된 추론들이 더 정확한 답을 도출
3. 오류 전파 방지 (Error Propagation Prevention)
CoK는 각 단계에서 오류가 다음 단계로 전달되지 않도록 오류 전파를 방지하는 메커니즘을 가지고 있음
이는 각 추론 단계에서 정확한 지식을 사용해 추론을 교정한 후 다음 추론에 영향을 주기 때문에, 초기 추론이 잘못되었더라도 그 오류가 최종 답변에 영향을 미치지 않도록 함
기존 방식에서는 초기 추론이 틀리면 그 오류가 이후 단계까지 계속 이어져 최종 답변이 잘못될 가능성이 큼
그러나 CoK는 각 단계에서 지식을 동적으로 검색하고 추론을 교정하기 때문에, 이전 단계의 오류가 다음 단계로 전파되지 않음
즉, 잘못된 정보가 누적되지 않도록 방지하는 구조입니다.
예시로 설명
예를 들어, "어떤 아르헨티나 배우가 El Tio Disparate를 감독했는가?"라는 질문이 주어졌다고 가정
초기 추론
CoK는 초기 추론으로 "Fernando Birri가 El Tio Disparate를 감독했다"라고 생각할 수 있음
AQG 사용 및 정보 검색
AQG를 사용해 SPARQL 쿼리를 생성하고, 실제로 El Tio Disparate를 감독한 사람이 Palito Ortega라는 결과를 가져옴
추론 교정
Fernando Birri가 아니라 Palito Ortega가 감독했다는 정보를 바탕으로 추론을 교정
다음 단계 추론
감독자를 교정한 후, Palito Ortega의 생년월일을 검색하여 추론을 이어감
교정된 추론이 다음 단계의 기반이 되어 오류 전파를 막음- 답변 통합 (Answer Consolidation):
마지막으로, 수정된 추론들을 바탕으로 최종 답변을 생성합니다. 수정된 추론들이 더 신뢰할 수 있는 기초를 제공하기 때문에, 이 단계에서 도출된 답변은 보다 정확하고 일관된 결과를 제공합니다.
샘플로부터 생성된 답변에서 다수의 합의가 없을 경우, CoK는 식별된 도메인의 지식을 적응시키며 논리를 단계별로 수정
- 다수의 합의(Self-consistency):
- CoK는 여러 번의 샘플링을 통해 다양한 추론 경로(논리)를 생성하고, 각 추론 경로에 따른 여러 답변을 도출
이때 다수의 답변이 일치하면 그 답변이 신뢰할 만한 것으로 간주 - 예를 들어, 질문에 대해 5개의 답변이 생성되었을 때, 그 중 3개가 동일한 답변을 제시하면 CoK는 해당 답변이 "일관성이 있는" 것으로 생각
- CoK는 여러 번의 샘플링을 통해 다양한 추론 경로(논리)를 생성하고, 각 추론 경로에 따른 여러 답변을 도출
- 다수의 합의가 없는 경우:
- 만약 생성된 답변들 사이에 다수의 합의가 없거나 일치하는 답변이 적을 경우, CoK는 그 답변이 틀리거나 불확실하다고 판단
이때는 단순히 추론된 답변을 사용하지 않고, 외부 지식 출처에서 추가 정보를 검색하여 논리를 단계별로 교정 - 예를 들어, 5개의 답변이 모두 다른 경우, CoK는 특정한 도메인의 외부 지식(예: Wikipedia나 Wikidata)에서 정보를 검색하여 논리를 보완하거나 수정하고, 이를 바탕으로 더 정확한 답변을 생성
- 만약 생성된 답변들 사이에 다수의 합의가 없거나 일치하는 답변이 적을 경우, CoK는 그 답변이 틀리거나 불확실하다고 판단
- 외부 지식 기반 교정:
- 다수의 합의가 없는 경우, CoK는 적응형 쿼리 생성기(AQG)를 사용해 선택된 도메인의 지식을 검색하여 답변의 논리를 교정
이렇게 함으로써 오류 전파를 막고, 논리적 일관성을 강화하며, 더 신뢰할 수 있는 답변을 제공
- 다수의 합의가 없는 경우, CoK는 적응형 쿼리 생성기(AQG)를 사용해 선택된 도메인의 지식을 검색하여 답변의 논리를 교정
이러한 수정된 논리는 최종 답변 통합을 위한 더 나은 기반이 될 수 있음
기존 연구들이 주로 비구조화된 데이터를 사용하는 것과 달리, CoK는 Wikidata나 테이블과 같은 신뢰성 있는 사실 정보를 제공하는 구조화된 지식 소스도 활용
동적 지식 적응 단계에서 비구조화된 데이터와 구조화된 지식 소스에 모두 접근하기 위해, 우리는 SPARQL, SQL, 자연어 문장 등의 다양한 유형의 쿼리 언어에 대한 쿼리 생성을 허용하는 적응형 쿼리 생성기를 제안
더욱이, 논리 사이의 오류 전파를 최소화하기 위해, CoK는 이전에 수정된 논리를 사용해 후속 논리를 생성하고 수정하는 방식으로 논리를 점진적으로 수정
LLM들이 직면한 주요 문제 중 하나는 'hallucination'으로, 그들은 사실적으로 보이지만 실제로는 잘못된 텍스트를 자신 있게 생성하는 경향이 존재
예를 들어, "영화 El Tio Disparate를 감독한 아르헨티나 배우는 몇 년도에 태어났습니까?"라는 질문에 대한 답변이 필요할 때, 가장 진보된 LLM들조차 종종 틀린 답변을 제공
LLM은 학습 데이터를 바탕으로 정보를 기억해내는 능력이 뛰어나지만, 이러한 모델 내에서 사실적인 지식을 효과적으로 업데이트하거나 제어하는 것은 여전히 어려운 문제
환각 문제를 해결하기 위한 유망한 방향 중 하나는 LLM을 외부 지식으로 보강하는 것
이러한 방법은 외부 사실 지식을 활용하여 생성 과정을 안내하는 검색 시스템을 LLM에 통합하는 것을 포함
LLM의 내부 학습 지식에만 의존하는 대신, 이러한 방법은 웹 문서 및 지식 베이스와 같은 외부 지식 소스에서 관련 정보를 가져올 수 있음
또한 복잡한 논리가 필요한 질문에 대응하기 위해, '검증 및 수정(Verify-and-Edit, VE)' 프레임워크를 제안했는데, 이는 검색 시스템을 통합하여 LLM의 연쇄적 사고 논리를 향상시킴
하지만 이러한 방법에는 세 가지 내재적 한계가 존재
1) 모든 질문에 대해 고정된 지식 소스를 사용하기 때문에, 전문적이고 도메인별 지식을 검색해야 할 때 실패할 수 있음
예를 들어, 의학적 질문에 대해 Wikipedia를 검색하는 것은 효과적이지 않을 수 있음
2) 검색 쿼리를 생성하기 위해 기존 방법들은 주로 자연어 문장으로 사전 학습된 LLM에 의존하는데, 이는 SPARQL과 같은 지식 그래프를 쿼리하는 구조화된 쿼리를 생성하는 데 효과적이지 않을 수 있음
3) 기존의 검색 기반 방법들은 점진적인 수정 기능이 부족하여 오류 전파로 이어질 수 있음
예를 들어, 그림 1에서 우리는 각 논리를 CoT 내의 생각 단계(문장)로 정의
VE는 각각의 논리를 병렬로 독립적으로 검증하고 수정
두 번째 논리가 첫 번째 논리에 의존하는 경우, 오류는 검증 단계에서 수정 단계로 이어져 검색된 지식이 서로 일치하지 않게 되어 최종 답변이 잘못될 수 있음
유사하게, ReAct도 이전 단계의 오류를 남겨두어 LLM 추론에 노이즈와 편향을 발생시킬 수 있음
이러한 한계를 해결하기 위해, 우리는 CoK(Chain-of-Knowledge)라는 프레임워크를 제안
이 프레임워크는 이질적인 지식 소스를 동적으로 활용하여 LLM을 보강
그림 1에 나타난 바와 같이, “영화 El Tio Disparate를 감독한 아르헨티나 배우는 몇 년도에 태어났습니까?”라는 질문에 대해 CoT와 자기 일관성을 이용해 예비 논리를 생성하고, 관련 지식 도메인을 식별하며, 다수의 합의가 부족한 답변을 선택하여 추가 처리를 진행
이후 동적 지식 적응 단계에서 적응형 쿼리 생성기(AQG)를 사용하여 선택된 도메인 내의 지식 소스에 대한 쿼리를 생성
이질적인 형식의 지식을 효과적으로 검색하기 위해, AQG는 SPARQL 및 자연어 문장과 같은 해당 유형의 쿼리를 적응적으로 생성할 수 있음(그림 2 참조).
생성된 쿼리를 실행하여 지원 지식을 얻고 첫 번째 논리를 수정하는 데 사용(예: 감독을 Fernando Birri에서 Palito Ortega로 수정).
이는 첫 번째 논리에서 발생한 실수가 두 번째 논리의 생성에 전파되지 않도록 보장
같은 과정을 통해 두 번째 논리도 수정
마지막으로 수정된 논리 체인을 통해 CoK는 최종 답변을 도출
(a) Chain-of-Thought & Self-Consistency (Wei et al., 2022)
- Chain-of-Thought(CoT)는 단계별로 추론을 통해 답변을 도출하는 방식
- 첫 번째 추론으로, "El Tio Disparate의 감독은 Fernando Birri"라고 잘못 추론
- 두 번째로, "Fernando Birri는 1925년에 태어났다"라고 추론
- 결과적으로, 1925년이 최종 답변
- 문제는 첫 번째 논리가 잘못되었음에도 불구하고 그 오류가 수정되지 않고 다음 논리에 영향을 미쳐 최종 답변이 잘못될 수 있다는 점
(b) Verify-and-Edit (Zhao et al., 2023c)
- Verify-and-Edit는 검색을 통해 잘못된 정보를 수정하는 방식
- 여기서는 처음에 잘못된 질문으로 "Fernando Birri"를 El Tio Disparate의 감독으로 추정한 후, 검색된 정보를 사용해 Palito Ortega가 감독이라고 수정
- 그러나 이후 논리에서 Fernando Birri의 출생 연도를 그대로 유지하여 오류가 발생
- 1925년이라는 답이 최종 답변으로 도출되었으나, 이는 오류 전파로 인해 잘못된 답
즉, 일부 정보는 수정되었지만, 다른 관련 정보는 여전히 잘못된 상태로 남아 있음
(c) Chain-of-Knowledge(CoK) with Dynamic Knowledge Adapting
- CoK(Chain-of-Knowledge)는 선택된 지식 도메인에서 여러 차례의 추론을 동적으로 수정하면서 답변을 도출하는 방식
- 첫 번째 논리: 처음에는 "Fernando Birri"를 감독으로 추정했지만, 지식 검색(Wikidata, Wikipedia)을 통해 Palito Ortega가 감독이라는 사실을 확인하고, 첫 번째 논리를 수정
- 두 번째 논리: 두 번째 추론에서 "Palito Ortega가 1941년에 태어났다"는 정보를 검색해 답변을 동적으로 수정
- 마지막으로, Palito Ortega가 1941년에 태어났다는 답변을 도출하며, 정확한 최종 답변을 제공
- 이 방법은 이전 단계에서 발생한 오류를 바로잡고, 추론을 점진적으로 교정하면서 답변을 더 정확하게 도출
세 가지 방법의 주요 차이점:
- (a) Chain-of-Thought(COT)와 Self-Consistency는 단계적으로 추론을 진행하지만, 초기 오류가 다음 단계로 전파되어 최종적으로 잘못된 답을 도출할 가능성이 큼
- (b) Verify-and-Edit는 검색을 통해 일부 정보를 수정하지만, 오류 전파가 여전히 문제로 남아 최종 답변이 틀릴 수 있음
- (c) CoK는 지식 도메인 검색과 교정을 통해 추론을 단계별로 수정하며 오류 전파를 방지하여 정확한 답변을 제공
다양한 지식 소스가 각각 다른 쿼리 언어를 요구하기 때문에, AQG(적응형 쿼리 생성기)는 쿼리 생성을 위한 중요한 역할
AQG는 Llama-2와 같은 LoRA로 미세 조정된 모델이 될 수도 있고, ChatGPT와 같은 상용 LLM이 될 수도 있는 다목적 도구
CoK(Chain-of-Knowledge)는 비구조적 및 구조적 지식 소스를 모두 활용하여 더 나은 사실적 정확성, 신뢰성 향상, 정보 업데이트의 용이성을 제공
이 그림은 Chain-of-Knowledge(CoK) 프레임워크의 동작 원리를 설명하는 도식으로, 세 가지 주요 단계로 나뉨
1. (I) 추론 준비 및 지식 도메인 선택 (Reasoning Generation & Knowledge Domain Selection)
- 질문이 주어지면, CoK는 먼저 추론을 생성하고 질문과 관련된 지식 도메인을 선택
- 예시 질문: "El Tio Disparate를 감독한 아르헨티나 배우는 언제 태어났는가?"
- 이 단계에서 CoK는 질문의 성격을 분석하여, 관련된 지식 도메인(예: 영화, 역사, 생물학 등)을 선택
- 이 단계는 LLM(Large Language Model)에서 질문을 분석하고, 적절한 추론 경로를 설정하기 위한 준비 작업
2. (II) 동적 지식 적응 (Dynamic Knowledge Adapting)
- 여기서 CoK는 선택된 지식 도메인에 맞는 추론 경로(Rationale)를 여러 번 생성하고, 그 추론을 검증하면서 동적으로 수정
- Rationale 1 → Rationale Correction:
- 첫 번째로 생성된 추론(Rationale 1)이 잘못된 경우, CoK는 외부 지식을 검색하고, 이를 통해 추론을 교정
- 지식 검색은 적응형 쿼리 생성기(AQG)를 통해 이루어짐
이때, SPARQL, SQL, Wikipedia 등 다양한 지식 출처에서 정보를 가져와 추론을 교정
- Rationale 2 → Rationale Correction:
- 교정된 추론(Rationale 1)을 바탕으로 다음 추론 단계(Rationale 2)가 생성되며, 이 단계도 동일한 방식으로 교정됩
- 이 과정은 점진적으로 이루어지며, 잘못된 추론이 다음 단계로 전파되지 않도록 단계마다 수정
- 적응형 쿼리 생성기(AQG):
- 여기서 중요한 역할을 하는 것은 적응형 쿼리 생성기
그림 하단에 표시된 바와 같이, LLM 모델(예: Llama-2-LoRA, ChatGPT)은 질문에 맞는 쿼리를 생성하고, 이를 통해 적절한 데이터베이스에서 정보를 검색 - 구조화된 데이터(예: SPARQL, SQL 테이블) 또는 비구조화된 데이터(Wikipedia, Flashcards 등)를 이용해 정보 검색을 수행하며, 이를 통해 지원 지식(Supporting Knowledge)를 제공
- 여기서 중요한 역할을 하는 것은 적응형 쿼리 생성기
3. (III) 답변 통합 (Answer Consolidation)
- 마지막 단계는 답변 통합입니다. 여러 번의 추론과 교정을 거쳐 생성된 최종 수정된 논리(Rationale)들을 바탕으로 최종 답변이 도출
- 예시에서는 "The answer is 1941"이라는 답변이 최종적으로 도출된 것을 확인
CoK 프레임워크는 그림 2에서 볼 수 있듯이 세 가지 단계로 구성
(1) 논리 준비
(2) 동적 지식 적응
(3) 답변 통합
첫 번째 단계에서는 지식이 요구되는 질문이 주어지면 CoK는 예비 논리, 즉 CoT의 논리 체인에서 논리 단위/문장을 생성하고, 동시에 관련 지식 도메인을 식별하면서 답변을 도출
다수의 합의가 도출되지 않는 질문은 동적 지식 적응 단계로 넘어가며, 여기서 적응형 쿼리 생성기(AQG)가 활용되어 식별된 도메인의 지식 소스에서 지식을 검색하기 위한 쿼리를 생성
검색된 지식을 기반으로 논리는 점진적으로 수정되고 생성되며, 수정된 논리를 바탕으로 최종 답변이 도출
논리 준비 단계
현실 세계의 시나리오에서 복잡하고 지식이 요구되는 질문을 마주했을 때, 최종 답변을 도출하기 전에 중간 논리를 생성하는 것이 필요함
또한, 질문에 답하기 위해 외부 지식 소스에 접근하기 전에 효과적인 검색을 위해 관련 지식 도메인을 식별하는 것이 중요
따라서 논리 준비 단계는 크게 두 가지 핵심 요소로 구성
논리 생성과 지식 도메인 선택.
논리 생성
이전 연구들은 LLM이 복잡한 논리 질문에 답하기 위해 중간 논리의 중요성을 강조한 바 있음
본 연구에서는 Few shot CoT Prompting을 활용해 논리를 생성
또한, self-consistency 방법을 사용하여 외부 지식이 필요한지 여부를 판단
다양한 논리 경로와 답변을 샘플링한 결과, self-consistency은 정확성과 높은 상관관계가 있음을 발견
따라서 높은 일관성을 가진 예측은 수정 없이 유지
반면, "불확실한" 답변, 즉 일관성이 특정 임계값 이하인 질문은 추가적인 처리 단계를 진행
이러한 필터링 기법은 이전 연구에서도 잘못된 예측을 식별하는 데 유용하다고 확인
지식 도메인 선택
질문에 가장 관련 있는 지식을 검색하기 위해, 지식 도메인 선택 단계를 도입
그림 2에서 볼 수 있듯이, CoK는 사실, 의학, 물리, 생물학의 네 가지 지식 도메인을 통합
또한, 하나의 질문을 답변하는 데 여러 도메인이 필요할 수 있음
예를 들어, "조수의 원인을 설명하는 이론을 제안한 사람은 누구인가?"라는 질문이 주어졌을 때, 물리(달의 중력으로 인해 조수가 발생함)와 사실(아이작 뉴턴이 만유인력을 처음 제안하고 천체에 의한 조수력을 설명함) 두 도메인의 지식이 필요
지식 도메인 선택은 In-context learning을 통해 이루어짐
1. In-Context Learning(In-context 학습)이란?
In-Context Learning은 LLM이 사전 학습된 지식을 활용해 추가적인 미세 조정(fine-tuning) 없이, 주어진 입력(문맥)을 통해 새로운 정보를 학습하거나 맥락을 이해하는 방식
즉, 추가적인 훈련 없이 사용자가 제공한 질문과 관련된 문맥이나 정보만을 가지고 모델이 적절한 방식으로 추론할 수 있도록 돕는 것
In-Context Learning의 장점은 모델이 제공된 문맥을 기반으로 바로 추론을 수행할 수 있다는 것이며, 이는 LLM이 입력된 문맥을 보고 스스로 지식 도메인을 선택하게 만듦
2. 지식 도메인 선택 과정에서 In-Context Learning의 역할:
CoK(Chain-of-Knowledge) 프레임워크에서, 질문이나 문맥이 주어지면 In-Context Learning을 통해 LLM이 이 질문이 어느 지식 도메인에 속하는지 추론
예를 들어, 질문이 "El Tio Disparate를 감독한 아르헨티나 배우는 언제 태어났는가?"라는 것이라면, LLM은 질문을 분석하고 이 질문이 영화, 인물, 역사적 사실과 관련이 있음을 이해하고, 해당 도메인을 자동으로 선택
이때 LLM은 이전에 학습된 지식을 기반으로 질문의 의미와 맥락을 파악하고, 적합한 지식 도메인(예: 위키데이터, 영화 데이터베이스, 위키피디아 등)을 선택
3. 예시로 설명:
예를 들어, 다음과 같은 질문이 있다고 가정
"El Tio Disparate의 감독은 누구이며, 그가 태어난 해는 언제인가?"
In-Context Learning을 통해 LLM은 다음과 같이 도메인을 선택할 수 있음
질문에서 "감독"과 "태어난 해"라는 단어들을 보고, 이 질문이 영화 정보(감독 관련)와 인물의 출생 정보와 관련되어 있음을 추론이 정보를 기반으로 LLM은 영화 데이터베이스(Wikidata, IMDb)와 인물의 출생 정보가 있는 데이터베이스(예: Wikidata, Wikipedia)가 필요하다고 판단
그런 다음, 적절한 쿼리를 생성하여 해당 지식 출처에서 관련된 정보를 검색
이 과정은 사용자가 명시적으로 어떤 도메인을 선택하지 않더라도, 질문 자체의 문맥을 통해 LLM이 적절한 지식 도메인을 스스로 선택하는 방식
4. 지식 도메인 선택의 중요성:
In-Context Learning을 통해 지식 도메인이 선택되면, 적절한 출처에서 정확한 정보를 검색할 수 있기 때문에, 추론 과정에서 오류를 줄이고 더 신뢰할 수 있는 답변을 도출할 수 있음
CoK는 이 과정에서 동적 지식 적응(Dynamic Knowledge Adapting)을 통해 잘못된 추론을 점진적으로 수정하면서 더 정확한 답변을 제공동적 지식 적응 단계
예비 논리와 식별된 지식 도메인이 확보되면 다음 단계는 동적 지식 적응
이는 검색된 지식을 기반으로 논리를 수정하는 과정을 의미
오류 전파를 최소화하기 위해, CoK는 논리의 지식 검색과 수정 과정을 순차적으로 수행
앞서 수정된 논리를 사용해 다음 논리를 생성하고, 같은 방식으로 지식을 검색하고 논리를 수정하는 과정을 반복
지식 검색
논리 준비 단계에서 질문에 대한 관련 도메인이 식별되면, 해당 도메인의 모든 지식 소스를 활용하여 지식을 검색
지식 검색은 두 가지 단계로 나뉨
1) 쿼리 생성
2) 쿼리 실행.A) 쿼리 생성
지식 소스의 특성에 따라, 각 소스는 가장 적합한 쿼리 언어와 연결
이는 구조화된 쿼리(SPARQL 또는 SQL)일 수도 있고, 비구조화된 자연어 문장일 수도 있음
예를 들어, Wikidata는 지식 그래프로 구성되어 있어 SPARQL 쿼리로 연결
반면, 플래시카드 소스는 자연어 문장 쌍의 형식을 띠고 있어 자연어 쿼리와 연결
SPARQL 쿼리 생성 예시는 표 1에 제시
예를 들어, "Souleyman Sané의 아들인 Leroy Sané는 프로 축구 선수이다"라는 문장이 주어졌을 때, "SELECT ?answer WHERE { wd:/Souleymane Sané/ wdt:/child/ ?answer. }"라는 SPARQL 쿼리가 생성되어 Wikidata에서 관련 지식을 검색
구조화된 쿼리와 비구조화된 쿼리 생성을 모두 지원하기 위해, 적응형 쿼리 생성기(AQG)가 사용
AQG는 미세 조정된 모델이나 상용 LLM 모두에서 사용할 수 있는 다목적 플러그인 컴포넌트
B) 쿼리 실행
쿼리가 생성되면, 다음 단계는 쿼리를 실행하여 지식을 얻고 이를 형식화된 지식으로 변환하는 것(표 1 참조).
각 쿼리 언어에 대해 쿼리를 실행하고 결과를 형식화하는 전문적인 방법이 고안
SPARQL 쿼리의 경우, 먼저 엔티티 연결이 수행되어 엔티티 범위를 ID로 대체한 후, wikidata.org의 API를 호출하여 결과를 얻음
SQL 쿼리의 경우, 직접 실행되어 단일 값 또는 원래 테이블의 하위 집합을 가져옴
SPARQL 및 SQL의 결과는 마크다운 텍스트로 형식화
자연어 문장 쿼리의 경우, 지식은 문장 유사성 매칭을 통해 또는 검색 엔진을 활용하여 도메인별 지식 소스에서 검색
논리 수정
ReAct 및 Verify-and-Edit와 같은 기존 방법은 논리 오류를 포함하더라도 모든 검색된 정보를 처리 중에 그대로 유지
이는 종종 오류 전파로 이어져 후속 생성이 잘못된 방향으로 이끌리게 만듦
이러한 약점을 극복하기 위해, CoK는 점진적인 논리 수정 단계를 포함
현재의 논리와 여러 지식 소스에서 가져온 형식화된 지식을 바탕으로, 수정된 논리가 생성되어 현재 논리를 대체
이 단계는 사실적 오류를 수정하고 오류 전파를 방지하는 데 도움을 줌
다음 논리 생성
질문과 앞서 수정된 논리를 사용하여 다음 논리를 생성하고, 새로운 논리에 대해 같은 과정을 반복하여 최종 답변이 도출될 때까지 진행
답변 통합 단계
궁극적으로, LLM은 질문과 수정된 논리를 바탕으로 통합된 답변을 생성
적응형 쿼리 생성기(AQG)
CoK는 사실, 의학, 물리, 생물학의 네 가지 도메인에서 이질적인 지식 소스를 통합
각 지식 소스는 고유한 쿼리 언어를 필요로 하며, 이는 구조화된 언어일 수도 있고 비구조화된 언어일 수도 있음
따라서 다양한 지식 소스에 대한 쿼리 생성을 용이하게 하기 위해 적응형 쿼리 생성기(AQG)를 설계
비구조화된 쿼리 언어
자연어 문장은 사람들이 정보를 검색하는 가장 자연스러운 방식
AQG는 지식 소스를 기반으로 비구조화된 쿼리를 생성하는 두 가지 접근 방식을 사용
A) 일반적인 사실 지식 소스(Wikipedia 등)에 대해서는 ChatGPT가 활용
B) 플래시카드, ScienceQA 물리 및 ScienceQA 생물학과 같은 도메인별 지식 소스의 경우, ChatGPT는 해당 도메인에 대한 포괄적인 지식을 가지고 있지 않기 때문에 환각이 발생할 수 있음따라서 우리는 LoRA를 사용하여 LLaMA2-7B 모델을 입력 텍스트와 출력 쿼리 쌍으로 학습
또한, 학습 데이터의 도메인은 해당 지식 소스와 일치하도록 설계되어 AQG가 더 정확한 쿼리 생성을 위해 필요한 지식을 갖출 수 있도록 함
구조화된 쿼리 언어
구조화된 지식 소스(Wikidata, 테이블 등)는 직접적인 사실 결과를 제공
구조화된 쿼리를 생성하기 위해 AQG는 두 가지 접근 방식을 사용
A) SQL과 같이 일반적으로 사용되는 쿼리 언어를 생성할 때는 ChatGPT를 활용
ChatGPT가 사전 학습 과정에서 SQL을 포함했을 가능성이 높아, SQL 쿼리 생성에 유리하다는 점이 실험적으로 확인됨
SQL 쿼리를 생성할 때 테이블 스키마와 데이터 스니펫을 포함하는 등 모든 관련 세부 정보를 프롬프트에 포함시켜 쿼리 생성의 정확성을 높임
B) SPARQL과 같은 덜 일반적인 언어의 경우, 우리는 LoRA를 사용하여 LLaMA-2-7B 모델을 문장-SPARQL 쌍으로 학습학습 데이터는 논리의 세부 사항과 일치하도록 수집되어 더 정확한 쿼리 생성을 가능하게 함
예를 들어, SPARQL의 경우, 학습 데이터와 논리는 각각의 문장 안에서 단일 엔티티와 관계를 포함
또한, chain-of-hindsight에서 영감을 받아 올바른 쿼리 외에도 "잘못된 쿼리:.."와 같은 부정적인 예제를 추가하여 학습을 진행
실험
설정
모델
실험에서는 ChatGPT(gpt-3.5-turbo-0613)를 블랙박스 LLM으로 사용하여 논리 준비와 답변 통합 단계를 수행재현성을 보장하기 위해 모든 생성에 대해 디코딩 온도를 0으로 고정
Self-Consistency 단계를 제외하고는 온도를 0.7로 설정하여 5개의 논리와 답변을 샘플링
절반 미만의 답변이 일치할 때, CoK를 사용하여 결과를 수정
지식 소스
각 도메인에 대해 권위 있는 지식 소스를 선택구체적으로, 사실 도메인에서는 Wikidata, Wikipedia, Wikitables를 사용했고, 의학 도메인에서는 의료 플래시카드와 UpToDate를 활용. 물리 도메인에서는 ScienceQA Physics와 PhysicsClassroom을 참조하였으며, 생물학 도메인에서는 ScienceQA Biology와 CK-12를 사용
작업
다양한 도메인에서 지식이 요구되는 작업을 수집사실 도메인에서는 FEVER, HotpotQA, FeTaQA를, 의학 도메인에서는 MedMCQA를, 물리 및 생물학 도메인에서는 MMLU 물리 및 생물학 테스트를 사용
비교 기준
CoK는 널리 사용되는 비교 기준과 최신 방법과 비교하여 종합적인 평가를 제공
A) 표준 프롬프팅(Standard)은 답변을 직접 예측
B) CoT는 최종 답변 전에 여러 중간 논리를 생성하여 LLM의 복잡한 논리 능력을 향상
C) CoT-SC을 추가하여 CoT에서 탐욕적 디코딩 대신 다양한 논리를 샘플링하고 가장 일관된 답변을 출력
D) Verify-and-Edit는 외부 지식을 통해 논리를 사후 수정하여 예측의 사실성을 개선하는 CoT 기반의 최신 프레임워크
E) ReAct는 에이전트의 생각과 개방형 도메인 지식 검색을 결합하여 최종 답변을 도출
모든 방법은 동일한 수의 시연 샘플을 사용하여 Few shot에서 평가결과
CoK는 CoT를 일관되게 능가함
표 2에서 알 수 있듯이 CoK는 모든 데이터셋에서 CoT와 CoT-SC를 일관되게 능가사실 도메인 작업에서는 HotpotQA와 FEVER에서 3-shot과 6-shot에서 각각 2.6%와 4.3%의 평균 향상이 두드러짐
이는 CoK가 다단계 논리가 필요한 데이터셋(HotpotQA)에서 효과적일 뿐만 아니라 단일 단계 논리가 필요한 데이터셋(FEVER)에서도 정확한 검색 기능을 통해 유리함을 시사
MedMCQA, MMLU 물리 및 생물학과 같은 도메인별 데이터셋에서는 CoK가 3-shot 및 6-shot 설정에서 CoT 기준 대비 평균 4.9%의 정확도 향상을 달성
CoT가 FetaQA, MedMCQA, MMLU 물리에서 표준 프롬프팅보다 성능이 낮았다는 점도 주목할 만함
이는 CoT가 복잡한 논리 문제를 해결하는 데 효과적이지만, 지식이 많이 요구되는 작업에서는 논리에서 환각이 발생하여 잘못된 답변을 도출하게 된다는 것을 보여줌
CoK 대 다른 검색 기반 방법
표 2에서 CoK는 최신 검색 기반 방법인 Verify-and-Edit(VE)를 일관되게 능가FEVER와 HotpotQA에 대해서는, ReAct의 결과와 추가적으로 비교
ReAct의 결과는 PaLM 모델에서 보고되었으므로, CoT-SC 기준 대비 성능 향상을 비교
ReAct와 비교했을 때, CoK는 특히 HotpotQA에서 CoT-SC 대비 더 큰 성능 향상
구체적으로, HotpotQA에서 CoK는 2.0%의 성능 향상을 보였으며, 이는 ReAct의 0.8%보다 높았음
FEVER에서는 CoK가 3.5%의 성능 향상을 보였으며, 이는 ReAct의 4.2% 향상과 비슷한 수준
이는 FEVER가 HotpotQA보다 단일 단계 논리 문제이므로, 개선된 CoT에서 얻는 이점이 적기 때문
VE는 모든 논리를 병렬로 지식 검색 및 수정하고, ReAct는 이전 오류를 프롬프트에 남겨두어 오류 전파로 이어질 수 있음
CoK는 점진적인 지식 적응을 통해 이러한 문제를 완화
CoK는 ReAct보다 비용이 훨씬 적게 든다는 점도 주목할 만함
시연 샘플 수의 영향
표 2에서 알 수 있듯이, CoK는 3-shot과 6-shot 설정 모두에서 여러 데이터셋에 걸쳐 성능을 지속적으로 향상
몇몇 연구들은 프롬프트에서 시연 샘플(shot)의 수를 늘리는 것이 논리 작업에서 더 나은 성능으로 이어질 수 있음을 보여주고 있음
하지만, 지식이 요구되는 작업에서는 이러한 경향이 보편적이지 않음
예를 들어, 표 2에 따르면, MMLU 생물학에서 CoT의 성능은 6-shot(81.7%)과 3-shot(81.5%) 사이에 거의 차이가 없음
이는 지식이 많이 요구되는 질문에 대해 LLM이 정확하게 답변하는 데 필요한 것은 논리 능력이 아니라, 부족한 지식이 병목 현상을 일으키기 때문
FEVER에서 모든 논리 기반 방법의 성능이 6-shot에서 감소하는 것도 이와 관련이 있음
이는 FEVER 질문이 단일 단계 논리를 요구하며, 추가적인 논리 지침이 오히려 잡음을 유발할 수 있기 때문
이러한 발견은 ReAct와도 일치하며, FEVER에서 3-shot샷을 넘어서도 성능이 향상되지 않는다고 저자들이 언급한 바 있음
분석
단일 지식 도메인 vs. 다중 지식 도메인 및 소스
CoK는 각 질문에 적합한 지식 도메인을 선택하는 단계를 통합
이 단계는 CoK가 가장 적합한 지식을 검색하여 논리를 수정하고 질문에 정확하게 답변할 수 있도록 하는 데 매우 중요
하나의 질문에 대해 여러 지식 도메인이 선택될 수 있으며, 각 도메인 내에 여러 지식 소스가 존재할 수 있음
단일 vs. 다중 지식 도메인
그림 3에 제시된 바와 같이, CoK는 각 데이터셋에 대해 주로 하나의 지식 도메인을 선택하는 경향이 있으며, 소수의 경우에만 다중 도메인이 선택됨예를 들어, MedMCQA의 주요 지식 도메인은 의학이며, 질문의 17.8%에서 생물학이 관련 도메인으로 식별
추가로, 다중 도메인 활용의 필요성을 입증하기 위한 소거 실험을 수행
표 4에서 알 수 있듯이, 의학 도메인 지식만 사용하는 것과 비교했을 때, 생물학 도메인의 추가 지식을 사용하는 CoK는 성능이 1.3% 더 향상
이는 일부 질문에 대해 여러 도메인에 걸친 지식이 필요함을 나타내며, 다양한 지식 도메인을 통합할 필요성을 강조
단일 vs. 다중 지식 소스
하나의 도메인 내에는 많은 신뢰할 수 있는 지식 소스가 존재하며, 단일 소스가 해당 도메인의 모든 지식을 포괄하는 것은 불가능따라서 하나의 도메인 내에서 여러 지식 소스를 활용하는 것이 중요
예를 들어, 표 4에서 보듯이, 의료 플래시카드만 사용하는 것과 비교하여, 플래시카드와 UpToDate를 모두 사용하는 CoK의 성능이 2.1% 향상
병렬 vs. 동적 지식 적응
앞서 언급했듯이, 동적 지식 적응은 CoK가 오류 전파를 방지하는 데 도움
표 5에서 알 수 있듯이, 동적 지식 적응을 적용했을 때 CoT에 비해 CoK의 성능이 4.2% 향상
반면, 병렬 수정은 논리 오류로 인한 오류 전파로 인해 성능이 저하
병렬 지식 적응(Parallel Knowledge Adapting) vs. 동적 지식 적응(Dynamic Knowledge Adapting)
이 두 용어는 Chain-of-Knowledge (CoK) 프레임워크 내에서 정보를 처리하고 추론을 수정하는 방식을 설명
각 방식은 정보를 검색하고 사용하는 과정에서의 차이를 나타냄
1. 병렬 지식 적응 (Parallel Knowledge Adapting)
병렬 지식 적응은 여러 지식 소스에서 동시에 정보를 검색하고 추론을 진행하는 방식
1) 동시성
여러 데이터 소스로부터 동시에 정보를 검색하며, 이를 통해 다양한 정보를 병렬적으로 처리
2) 효율성
다양한 출처에서 동시에 정보를 수집함으로써 추론 과정을 빠르게 진행할 수 있음
이는 시간적 효율성을 높이지만, 각 소스의 정보가 충돌하거나 일관성이 결여될 위험이 있음
3) 정보 충돌
병렬 처리 과정에서 각 소스의 정보가 서로 다를 경우 추론 과정에서 이를 조율하는 추가적인 작업이 필요할 수 있음
2. 동적 지식 적응 (Dynamic Knowledge Adapting)
동적 지식 적응은 정보를 단계적으로 검색하고, 각 단계에서 얻은 정보를 토대로 추론을 점진적으로 수정하는 방식
1) 점진적 개선
추론 과정에서 얻은 정보를 바탕으로 다음 단계의 추론을 보다 정확하게 수정
오류가 발견되면 즉시 교정하고, 그 수정된 정보를 다음 추론 과정에 적용
2) 오류 최소화
단계별로 정보를 검토하고 수정하기 때문에, 오류의 전파를 크게 줄일 수 있음
이는 최종 추론의 정확도를 높이는 데 기여
3) 시간 지연
각 단계에서 정보를 검토하고 수정하는 과정은 시간이 더 걸릴 수 있으나, 이는 보다 정확한 결과를 도출하기 위한 투자
병렬 vs. 동적 지식 적응의 비교
정확성
동적 지식 적응은 병렬 지식 적응에 비해 더 높은 정확성을 제공
오류 수정과 정보의 일관성 유지가 가능하기 때문
속도
병렬 지식 적응은 여러 소스에서 동시에 정보를 수집하므로 속도 면에서 유리할 수 있음
복잡성
병렬 지식 적응은 다양한 소스의 정보를 동시에 다루기 때문에 정보 충돌이나 일관성 유지가 어려울 수 있음
반면, 동적 지식 적응은 이러한 문제를 최소화하면서 진행됩니다.논리의 사실성 개선 평가
주요 결과에서 CoK가 지식이 많이 요구되는 작업에서 LLM의 성능을 효과적으로 향상시켰음을 보여주었지만, 생성된 논리의 환각을 줄이는 것에도 관심이 있음
따라서 우리는 논리의 사실적 정확성을 평가하기 위한 정량적 및 정성적 평가를 수행
정량적 평가
모델 출력에서 환각을 줄이는 방법을 자동으로 평가하기 위해, 기존의 사실 확인 방법을 사용하여 원래의 논리와 수정된 논리를 비교구체적으로, 우리는 Wikipedia와의 사실성 비교를 위해 최신 방법인 ProgramFC를 사용
표 6에서 볼 수 있듯이, HotpotQA 데이터셋에서 CoT-SC 기준보다 CoK의 사실적 정확성이 향상
특히, CoT-SC의 경우 두 번째 논리에서 사실적 정확성이 첫 번째 논리보다 떨어지는데, 이는 오류 전파로 인한 것일 수 있음
반면, CoK의 경우 두 번째 논리에서 사실적 정확성이 약간 향상되어, 이전 논리를 수정함으로써 이후 단계에서 더 사실적인 논리를 생성하는 데 도움이 된다는 것을 알 수 있음
인간 평가
CoK가 사실적으로 일관된 논리 체인을 출력할 수 있는지 정성적으로 평가하기 위해 인간 연구도 수행구체적으로, 두 명의 자원봉사자는 HotpotQA와 FEVER 데이터셋에서 무작위로 선택된 100개의 출력을 평가
선택된 출력은 50개의 CoK 출력이 잘못된 답변을 생성한 경우와 50개의 CoK 출력이 올바른 답변을 생성한 경우로 균형 있게 구성
자원봉사자들은 어느 논리 체인이 사실적으로 일관되는지, 혹은 동률인지 선택하도록 요청
그 후, 더 나은 CoT가 더 나은 결과를 이끌어야 하는지 여부에 대해 응답하도록 요청
평가 결과는 표 7에 나와 있음
자원봉사자들은 일관되게 CoK가 생성한 논리 체인이 CoT-SC보다 사실적으로 일관되다고 확인
잘못된 예측의 경우에도 인간 평가자들은 44%의 경우에 CoK가 생성한 CoT가 사실적 일관성에서 향상되었다고 믿었으며, 비록 답변이 잘못되었더라도 CoT의 질이 개선되었음을 확인
결론
이 논문에서는 LLMs의 사실적 정확성을 향상시키기 위해 설계된 새로운 프레임워크인 CoK를 소개
CoK는 여러 도메인의 이질적인 소스를 통합하여 점진적으로 지식에 기반한 생성 과정을 지원하는 유망하고 포괄적인 솔루션을 제공
비구조적 및 구조적 쿼리 언어를 모두 지원하는 적응형 쿼리 생성기(AQG)를 제안하여 정확한 쿼리 생성을 해결
AQG는 미세 조정된 모델과 블랙박스 LLM 간에 쉽게 전환할 수 있음
지식이 많이 요구되는 작업에 대한 실험 결과, CoK가 상당한 성능 향상을 달성했음을 보여줌
또한 CoK의 모듈성 덕분에 다양한 LLM과 다양한 형식의 지식 소스에 적용할 수 있어, 프라이버시 문제, 지식 소스 의존성, 신속한 정보 업데이트 등의 중요한 문제를 해결할 수 있음
'논문' 카테고리의 다른 글
- 추론 준비 (Reasoning Preparation):