ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 18. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
    논문 2024. 5. 18. 13:11

    음 논문 주제로 생각하고 있는 COT에 대해서 정리를 해보고자 작성하는 중


    중간 추론 단계의 일련의 사슬을 생성하는 것이 복잡한 추론을 수행하는 데 큰 언어 모델의 능력을 크게 향상시키는 방법에 대해서 탐구

    특히, 몇 가지 Chain 추론 예시로 제공되는 Chain of thought prompting이라는 간단한 방법을 통해 충분히 큰 언어 모델에서 이러한 추론 능력이 자연스럽게 나타남

    세 개의 큰 언어 모델에 대한 실험은 사슬 추론 프롬프팅이 산술, 상식 및 기호 추론 작업 범위에서 성능을 향상

    예를 들어, PaLM 540B에 단 8개의 Chain of thought prompting 하는 것만으로도 수학 단어 문제의 GSM8K 벤치마크 SOTA 달성


    언어 모델의 크기를 확장하는 것이 성능 향상과 샘플 효율성 향상과 같은 다양한 이점을 제공

    그러나 모델 크기를 확장하는 것만으로는 산술, 상식 및 기호 추론과 같은 도전적인 작업에서 높은 성능을 달성하기에 충분하지 않음

     

    이 연구는 큰 언어 모델의 추론 능력을 두 가지 아이디어에 의해 동기를 부여받은 간단한 방법으로 활성화할 수 있는 방법을 탐구

    첫째, 산술 추론 기술(즉, 복잡한 산술 문제를 해결하는 능력)은 자연어로 된 근거(즉, 문제를 해결하는 데 필요한 중간 단계의 설명)를 생성함으로써 이점을 얻을 수 있다는 것
    이전 연구에서는 모델이 자연어로 된 중간 단계를 생성할 수 있도록 하는 다양한 방법을 탐구
    이러한 방법에는 처음부터 모델을 훈련시키거나 이미 사전 훈련된 모델을 미세 조정하여 이러한 능력을 부여하는 것, 그리고 자연어 대신 형식 언어를 사용하는 신경-기호적(neuro-symbolic) 방법이 포함

    둘째, 큰 언어 모델은 프롬프팅을 통한 문맥 내 Few-shot learning이라는 흥미로운 가능성을 제공
    즉, 새로운 작업마다 별도의 언어 모델 체크포인트를 미세 조정하는 대신, 작업을 보여주는 몇 가지 입력-출력 예시로 모델을 ‘프롬프트’할 수 있습니다. 이 방법은 다양한 간단한 질문-응답 작업에서 성공적

     

    그러나 위의 두 아이디어는 중요한 한계가 존재

    1. Rationale-augmented training and finetuning methods의 경우, 고품질의 근거를 대량으로 생성하는 것은 비용이 많이 들고 일반적인 기계 학습에서 사용되는 간단한 입력-출력 쌍보다 훨씬 복잡

    2. GPT-3에서 사용된 전통적인 Few-shot prompting은 추론 능력을 요구하는 작업에서는 잘 작동하지 않으며, 언어 모델의 크기가 커짐에 따라 크게 개선되지 않음

     

    이 논문에서는 이 두 아이디어의 강점을 결합하여 한계를 피하는 방법을 탐구

    Input - Chain of Thought - Output 으로 구성된 프롬프트를 사용하여 추론 작업에 대해 언어 모델이 Few-shot prompting을 수행할 수 있는 능력을 탐구

    Chain of Thought는 최종 출력으로 이어지는 중간 자연어 추론 단계의 일련.

     

    산술, 상식, 기호 추론 벤치마크에 대한 평가를 제시하여 Chain of thought prompting이 Standard prompting을 능가하며 때로는 두드러지게 우수하다는 것을 보여줌 (그림 2는 이러한 결과 중 하나)

    수학 단어 문제의 GSM8K 벤치마크에서, PaLM 540B를 사용한  Chain of thought prompting이 Standard prompting을 큰 차이로 능가하고 새로운 최고 성능을 달성

    프롬프팅만을 사용하는 접근법은 큰 훈련 데이터 세트를 필요로 하지 않으며 단일 모델 체크포인트가 일반성을 잃지 않고 많은 작업을 수행할 수 있기 때문에 중요

    GPT-3에서 사용된 전통적인 Few-shot prompting이 추론 능력을 요구하는 작업에서는 효과적이지 않고, 언어 모델의 크기가 커져도 성능이 크게 개선되지 않는다는 주장은 주로 몇 가지 연구 결과와 관찰에서 비롯

    여기에는 다음과 같은 근거

    1. 추론 능력 부족: Few-shot prompting은 간단한 입력-출력 쌍을 모델에 제시하여, 그러한 예시를 바탕으로 새로운 입력에 대한 출력을 예측하도록 하는 작업
    이 방식은 주로 직접적인 정보 회기나 패턴 인식에 유리하지만, 다단계 추론이나 복잡한 문제 해결 과정을 요구하는 작업에서는 모델이 주어진 정보를 넘어서서 생각하고 결론을 도출해야 하므로 덜 효과적

    2. 규모와 성능의 한계: Rae et al., 2021의 연구에 따르면, 언어 모델의 크기를 증가시키는 것만으로는 특정 고급 추론 작업에서의 성능을 극적으로 향상시키지 못함
    이는 더 큰 모델이 더 많은 매개변수와 더 깊은 네트워크를 갖추고 있음에도 불구하고, 복잡한 문제 해결이나 고급 추론 작업에 필요한 추론 능력이 충분히 개발되지 않았음을 시사

    3. 연구 결과: 다양한 연구에서 Few-shot learning이 단순한 질의응답, 분류 또는 정보 검색 작업에서는 효과적일 수 있으나, 더 복잡한 문제 해결 능력이나 사고의 연쇄를 필요로 하는 작업에서는 상대적으로 성능이 낮다고 보고

    4. 비교 연구: Few-shot prompting과 Chain-of-thought prompting과 같은 다른 접근 방식을 비교 분석한 연구에서, Chain-of-thought 방식이 더 복잡한 추론 과정을 포함하는 작업에서 더 높은 성능을 보이는 경향
    이는 Few-shot 방식이 추론 작업에 필요한 더 깊은 사고 과정을 유도하기에는 제한적일 수 있음을 나타냄


    Chain of thought prompting

    Multi step math word problem와 같은 복잡한 추론 작업을 해결할 때 사고 과정을 고려

    일반적으로 문제를 중간 단계로 분해하여 최종 답을 제공하기 전에 각 단계를 해결

    예를 들어, "Jane이 엄마에게 꽃 2개를 준 후에는 10개가 남고, 다음으로 아빠에게 3개를 주면 7개가 남으므로 답은 7입니다."

    이 논문의 목표는 언어 모델에게 문제에 대한 최종 답으로 이어지는 일련의 일관된 중간 추론 단계인 유사한 사고의 연쇄를 생성할 수 있는 능력을 부여하는 것

     

    그림 1은 모델이 그렇지 않았다면 틀렸을 수학 단어 문제를 해결하기 위해 사고의 연쇄를 생성하는 예를 보여

    이 경우의 Chain of thougth는 해결책과 유사하며 답에 도달하기 위한 단계별 사고 과정을 모방한다는 아이디어를 더 잘 포착하기 위해 여전히 Chain of thought라고 지칭

     

    Chain of thougth Prompting은 언어 모델에서 추론을 촉진하는 접근 방식으로 몇 가지 매력적인 특성을 가지고 있음

    첫째, 원칙적으로 Chain of thought는 모델이 multi step problem을 중간 단계로 분해할 수 있게 하며, 이는 더 많은 추론 단계가 필요한 문제에 추가 계산을 할당할 수 있음을 의미

    둘째, Chain of thought는 모델의 행동에 대한 해석 가능한 창을 제공하여 특정 답에 도달했을 수 있는 방법을 제안하고 추론 경로가 잘못된 곳을 디버깅할 기회를 제공

    셋째, Chain of thought은 수학 단어 문제, 상식 추론, 기호 조작과 같은 작업에 사용될 수 있으며 원칙적으로 언어를 통해 인간이 해결할 수 있는 모든 작업에 적용

    마지막으로, 충분히 큰 현존하는 언어 모델에서는 Few shot prompting의 예시에 Chain of thought sequence를 포함함으로써 쉽게 사고의 연쇄 추론을 유도할 수 있음

    Arithmetic Reasoning

    그림 1에서 제시된 형태의 수학 단어 문제로 언어 모델의 산술 추론 능력을 측정하기 시작

    인간에게는 간단한 작업이지만, 산술 추론은 언어 모델이 종종 어려움을 겪는 작업

    540B 파라미터 언어 모델을 사용한 Chain of thought prompting은 여러 작업에서 특정 작업을 위해 Fine-tuning model과 비교하여 유사한 성능을 발휘하며, GSM8K 벤치마크에서 SOTA 달성

     

    Benchmark

    다섯 가지 수학 단어 문제 벤치마크를 고려

    수학 단어 문제의 GSM8K 벤치마크 
    구조가 다양한 수학 단어 문제의 SVAMP 데이터셋 
    다양한 수학 단어 문제의 ASDiv 데이터셋 
    대수 문제의 AQuA 데이터셋
    MAWPS 벤치마크

     

    Standard Prompting

    GPT-3에 의해 대중화된 Starndard Few-shot Prompting을 고려

    이때 언어 모델은 테스트 시간 예제에 대한 예측을 출력하기 전에 입력-출력 쌍의 문맥 예시를 제공

    예시는 질문과 답변으로 형식화됩니다. 모델은 그림 1(왼쪽)에 표시된 대로 직접 답을 제공

     

    Chain of thought Prompting

    제안하는 접근 방식은 각 소수 샷 프롬프팅 예시에 연관된 답변에 대한 사고의 연쇄를 추가하는 것

    이는 그림 1(오른쪽)에서 보여지듯이 설명됩니다. 대부분의 데이터셋은 평가 분할만을 가지고 있기 때문에, 우리는 모든 벤치마크에 대해 단일 세트의 8개 사고의 연쇄 예시를 사용했으며 AQuA를 제외하고는 모두 자유 응답

     

    Language Model

    다섯 가지 대형 언어 모델을 평가

    첫 번째는 GPT-3이며, 여기에는 350M, 1.3B, 6.7B, 175B 파라미터의 InstructGPT 모델에 해당하는 text-ada-001, text-babbage-001, text-curie-001, text-davinci-002를 사용

    두 번째는 LaMDA 로, 422M, 2B, 8B, 68B, 137B 파라미터의 모델

    세 번째는 8B, 62B, 540B 파라미터의 모델을 가진 PaLM

    네 번째는 UL2 20B

    다섯 번째는 Codex

     

    모델에서 Greed decoding을 통해 샘플링

    LaMDA의 경우 예시의 순서가 다른 다섯 개의 무작위 시드에 대한 평균 결과를 보고

    LaMDA 실험이 다른 시드 간에 큰 변동성을 보이지 않았기 때문에, 계산을 절약하기 위해 다른 모든 모델에 대해서는 단일 예시 순서의 결과를 보고

     

    Chain of Thought Prompting의 가장 강력한 결과는 그림 4에 요약되어 있으며, 여기서 세 가지 주요 결론을 도출할 수 있음

    1. 그림 4는 Chain of Thought Prompting이 모델 Scaling law, Emergent ability.
      즉, Chain of thougth Prompting은 작은 모델의 성능에 긍정적인 영향을 미치지 않으며, 약 100B 파라미터의 모델에서만 성능 향상을 가져옴
      우리는 작은 규모의 모델이 유창하지만 비논리적인 Chain of thought를 생성하여 Standard prompting보다 성능이 낮아지는 것을 정성적으로 발견
    2. Chain of thought prompting은 더 복잡한 문제에서 더 큰 성능 향상을 가져옴
      예를 들어, 기준 성능이 가장 낮은 GSM8K 데이터셋의 경우, 가장 큰 GPT와 PaLM 모델의 성능이 두 배 이상 향상
      반면에, 단일 단계만 필요로 하는 가장 쉬운 MAWPS의 SingleOp 서브셋의 경우, 성능 향상은 부정적이거나 매우 작았음
    3. GPT-3 175B와 PaLM 540B를 통한 Chain of thought prompting은 라벨이 지정된 훈련 데이터셋에서 특정 작업을 미세 조정한 기존의 최고 기술과 유리하게 비교
      그림 4는 PaLM 540B가 Chain of thought prompting을 사용하여 GSM8K, SVAMP, MAWPS에서 새로운 최고 기록을 달성다른 두 데이터셋인 AQuA와 ASDiv에서는 PaLM이 Chain of thought prompting으로 최고 수준의 2% 이내에 도달

    모델이 잘못된 답을 제공한 50개의 무작위 샘플을 임의로 검토
    이 분석의 요약은 Chain of thought의 46%가 소수의 오류(계산기 오류, 기호 매핑 오류 또는 하나의 추론 단계 누락)를 제외하고 거의 정확했으며, 나머지 54%는 의미 이해나 일관성에서 주요 오류가 있었다는 것

    Chain of thought 능력이 왜 스케일링으로 향상되는지에 대한 작은 통찰을 제공하기 위해, PaLM 62B에서 발생한 오류와 그 오류가 PaLM 540B로 스케일링됨으로써 수정되었는지를 비슷하게 분석
    요약하자면, PaLM을 540B로 스케일링하면 62B 모델에서 발생한 한 단계 누락 및 의미 이해 오류의 상당 부분을 수정

     

     

    Ablation Study

    Chain of thought Prompting을 사용하여 관찰된 이점은 다른 유형의 프롬프팅을 통해 동일한 성능 향상을 제공할 수 있는지에 대한 자연스러운 질문을 제기

    그림 5는 아래에 설명된 Chain of thought의 세 가지 변형을 보여주는 Ablation Study를 보여줌

     

    Equation only: Chain of thought Prompting이 도움이 될 수 있는 한 가지 이유는 평가할 수학 방정식을 생성하기 때문
    따라서 모델이 답을 제공하기 전에 수학 방정식만 출력하도록 프롬프트하는 변형을 테스트

    그림 5는 Equation only 프롬프팅이 GSM8K에 대해 큰 도움이 되지 않음을 보여줌. 이는 GSM8K의 질문 의미가 Chain of thought에서처럼 자연 언어 추론 단계 없이 직접 방정식으로 번역하기에는 너무 도전적임을 시사

    하지만, 한 단계 또는 두 단계 문제의 데이터셋의 경우, 방정식을 질문에서 쉽게 도출할 수 있으므로 방정식만 프롬프팅이 성능을 향상

     

    Variable compute only: Chain of thought가 모델이 더 어려운 문제에 더 많은 계산(즉, 중간 토큰)을 사용할 수 있게 한다는 것

    Chain of thougth에서 가변 계산의 효과를 분리하기 위해, 모델이 문제를 해결하는 데 필요한 방정식의 문자 수와 동일한 점의 시퀀스만 출력하도록 프롬프트하는 설정을 테스트

    이 변형은 기준선과 비슷한 성능을 보여줌.

    가변 계산 자체가 Chain of thougth Prompting의 성공 이유가 아니며, 자연 언어를 통해 중간 단계를 표현하는 데 유용성이 있음을 시사

     

    Chain of thougth after answer: chain of thougth prompting의 또 다른 잠재적 이점은 그러한 프롬프트가 모델이 사전 훈련 중에 획득한 관련 지식에 더 잘 접근할 수 있게 할 수 있다는 것

    따라서 chain of thougth prompting가 답변 후에만 제공되는 대안적 구성을 테스트하여 모델이 최종 답변을 제공하는 데 생성된 사고의 연쇄에 실제로 의존하는지를 분리

    이 변형은 기준선과 비슷한 성능을 보여줌. 이는 chain of thougth 에 구현된 순차적 추론이 단순히 지식을 활성화하는 것 이상의 이유로 유용함을 시사

     

    Robustness of Chain of Thought

    프롬프팅 접근법의 주요 고려 사항은 예시에 대한 Sensitivity

    예를 들어, Few-shot 예시의 순열을 변경하면 GPT-3의 SST-2 정확도가 거의 우연(54.3%)에서 거의 최고 수준(93.4%)까지 다양할 수 있음

    위의 결과 외에도 이 논문의 두 공동 저자(주석자 B와 C)가 동일한 Few-shot 예시에 대해 독립적으로 chain of thougth를 작성

    주석자 A는 또한 OpenAI에서 제공된 해결책 스타일을 따라 원본보다 더 간결한 다른 Chain of thought를 작성

     

    그림 6은 LaMDA 137B가 GSM8K와 MAWPS에서 이러한 결과를 보여줌.

    예시 기반 프롬프팅을 사용할 때 예상되는 것처럼, 다양한 Chain of thought 주석 간에는 차이가 있지만, 모든 Chain of thougth Prompting 세트가 표준 기준을 크게 능가

    이 결과는 Chain of thought의 성공적 사용이 특정 언어 스타일에 의존하지 않음을 시사

    Chain of thougth Prompting이 다른 예시 세트에서도 성공적으로 작동하는지 확인하기 위해, GSM8K 훈련 세트에서 무작위로 샘플링한 세 세트의 8개 예시로 실험을 진행

    이 데이터셋의 예시에는 이미 Chain of thougth와 같은 추론 단계가 포함

    그림 6은 이러한 프롬프트가 수작업으로 작성된 우리의 예시와 비교할 수 있을 정도로 성능이 우수하며, 표준 프롬프팅을 크게 능가함을 보임

    Annotator, 독립적으로 작성된 Chain of thought, 다른 예시 및 다양한 언어 모델에 대한 견고성 외에도, 우리는 Chain of thought Prompting이 산술 추론에 대해 다양한 예시 순서와 예시 수에 견고함을 발견


    Commonsense Reasoning

     

    Chain of thougth는 수학 단어 문제에 특히 적합하지만, Chain of thougth의 언어 기반 특성은 일반적인 배경 지식을 전제로 물리적 및 인간 상호 작용에 대한 추론을 포함하는 광범위한 클래스의 상식 추론 문제에도 적용될 수 있음

    상식 추론은 세계와 상호 작용하는 데 핵심적이며 현재의 자연어 이해 시스템이 아직 도달하지 못한 영역

     

    Benchmark

    우리는 상식 추론 유형의 다양한 범위를 다루는 다섯 가지 데이터셋을 고려

    인기 있는 CSQA는 복잡한 의미를 포함하는 세계에 대한 상식 질문을 하며, 종종 사전 지식이 요구

    StrategyQA는 모델이 질문에 답하기 위해 다단계 전략을 추론해야 함

    BIG-bench에서 두 가지 특수 평가 세트를 선택했습니다:

    1) 주어진 맥락에서 날짜를 추론하는 '날짜 이해'

    2) 스포츠와 관련된 문장이 타당한지 여부를 결정하는 '스포츠 이해'

    마지막으로, SayCan 데이터셋은 이산 집합에서 자연어 지시를 로봇 동작 시퀀스로 매핑하는 것을 포함

     

    그림 3은 모든 데이터셋에 대한 사고의 연쇄 주석이 포함된 예를 보여줍니다.

     

    Prompt

    CSQA와 StrategyQA의 경우, 훈련 세트에서 무작위로 선택한 예시에 대해 수동으로 Chain of thougth를 구성해 Few-shot 예시로 사용

    두 BIG-bench 작업에는 훈련 세트가 없으므로, 평가 세트에서 처음 열 개의 예를 Few-shot 예시로 선택하고 나머지 평가 세트에 대한 수치를 보고

    SayCan의 경우 사용된 훈련 세트의 여섯 가지 예를 사용하고 Chain of thougth도 수동으로 구성

     

    Result

    그림 7은 PaLM에 대한 이러한 결과를 강조 표시

    모든 작업에서 모델 크기를 확장하면 표준 프롬프팅의 성능이 향상되었으며, Chain of thougth prompting은 추가적인 이득을 가져왔으며, PaLM 540B에 대한 개선이 가장 큰 것

    Chain of thought Prompting을 사용한 PaLM 540B는 기준과 비교하여 강력한 성능을 달성했으며, StrategyQA에서 이전 최고 수준(75.6% 대 69.4%)을 능가하고 스포츠 이해에서 도움을 받지 않은 스포츠 애호가(95.4% 대 84%)보다 뛰어난 성능을 보임

    이 결과는 Chain of thougth prompting이 다양한 상식 추론 능력을 필요로 하는 작업에서도 성능을 향상시킬 수 있음을 보여줌


    Symbolic Reasoning

     

    인간에게는 간단하지만 언어 모델에게는 도전적일 수 있는 Symbolic Reasoning을 고려

    Chain of thougth prompting이 Stardard prompting 설정에서는 도전적인 Symbolic Reasoning을 수행할 수 있게 하는 것뿐만 아니라, Few-shot 예시에서 본 것보다 긴 추론 시간 입력에 대한 길이 일반화를 촉진한다는 것을 보여줌

     

    Task. 다음과 같은 두 가지 장난감 작업을 사용

    1. 마지막 글자 연결. 이 작업은 모델에게 이름의 단어들에서 마지막 글자를 연결하도록 요구(예: “Amy Brown” → “yn”)
      이는 언어 모델이 이미 사고의 연쇄 없이 수행할 수 있는 첫 글자 연결의 보다 도전적인 버전
      이름 센서스 데이터(https://namecensus.com/)에서 상위 천 개의 이름과 성을 무작위로 연결하여 전체 이름을 생성
    2. 동전 던지기. 이 작업은 사람들이 동전을 던지거나 던지지 않은 후 동전이 여전히 앞면인지 여부에 대한 답변을 모델에 요구
      (예: “동전이 앞면입니다. Phoebe가 동전을 던집니다. Osvaldo는 동전을 던지지 않습니다. 동전은 여전히 앞면입니까?” → “아니요”).

    이러한 Symbolic Reasoning 작업의 구성이 잘 정의되어 있기 때문에, 각 작업에 대해 훈련/소수 샷 예시와 동일한 단계 수를 가진 도메인 내 테스트 세트와 예시보다 더 많은 단계를 가진 도메인 외(OOD) 테스트 세트를 고려
    마지막 글자 연결의 경우, 모델은 두 단어의 이름이 있는 예시만 보고 나서 3단어와 4단어의 이름에 대해 마지막 글자 연결을 수행
    동전 던지기 작업에 대해서도 같은 방식을 따릅니다. 실험 설정은 이전 두 섹션과 동일한 방법과 모델을 사용
    우리는 각 작업에 대해 소수 샷 예시에 대한 사고의 연쇄를 다시 수동으로 구성

     

    Result

    이 도메인 내 및 OOD 평가의 결과는 그림 8에서 PaLM에 대해 강조되며, LaMDA에 대한 결과는 부록 표 5에 나타나 있음.
    PaLM 540B로, Chain of thougth prompting은 거의 100% 해결률을 보임

    (단, 표준 프롬프팅은 이미 PaLM 540으로 동전 던지기를 해결하지만 LaMDA 137B는 그렇지 않습니다).

    OOD 평가의 경우, 표준 프롬프팅은 두 작업 모두 실패
    Chain of Thought Prompting을 사용하면 언어 모델은 성능이 도메인 내 설정보다 낮음에도 불구하고 상승 곡선을 달성

    따라서 사고의 연쇄 프롬프팅은 충분한 규모의 언어 모델에 대해 본 사고의 연쇄를 넘어서 길이 일반화를 촉진


    Discussion

    LLM에서 Multi step inference을 이끌어내는 간단한 메커니즘으로서 Chain of thought prompting을 탐구
    처음으로 Chain of thougth prompting이 산술 추론에서 성능을 크게 향상시키며, abliation study보다 훨씬 더 강력한 개선을 보이고 다양한 주석자, 예시 및 언어 모델에 강건함을 확인

    다음으로, 상식 추론에 대한 실험은 Chain of thought의 언어적 특성이 일반적으로 적용 가능하다는 것을 강조
    기호 추론에 대해 Chain of thought prompting이 OOD 일반화를 긴 시퀀스 길이로 촉진한다는 것을 보여줌
    모든 실험에서 Chain of thought은 시중에서 구할 수 있는 언어 모델을 프롬프팅함으로써 간단히 유도

    이 논문을 작성하는 과정에서 언어 모델을 미세 조정한 것은 없습니다.

     

    모델 규모의 결과로 나타난 Chain of thought의 출현은 지배적인 주제
    표준 프롬프팅이 평탄한 스케일링 곡선을 보이는 많은 추론 작업에서 Chain of thought prompting은 급격히 증가하는 스케일링 곡선을 이끌어냄.

    Chain of thought prompting은 큰 언어 모델이 성공적으로 수행할 수 있는 작업 집합을 확장하는 것으로 보임.

    즉, 우리의 연구는 표준 프롬프팅이 큰 언어 모델의 능력에 대한 하한선만을 제공한다는 것을 강조

    이 관찰은 해답보다 더 많은 질문을 제기할 가능성이 큼

    예를 들어, 모델 규모를 더욱 증가시킴으로써 추론 능력이 얼마나 더 향상될 수 있는지, 어떤 다른 프롬프팅 방법이 언어 모델이 해결할 수 있는 작업 범위를 확장할 수 있는지 등의 질문이 있음

     

    1. Chain of thougth가 인간 추론자의 사고 과정을 모방한다고 하더라도, 신경망이 실제로 "추론"을 하고 있는지에 대한 질문은 여전히 의문 사항
    2. Few shot 설정에서 Chain of thougth로 예시를 수동으로 보강하는 비용은 최소하지만, 미세 조정을 위한 주석 비용은 상당할 것(비록 이는 합성 데이터 생성이나 제로샷 일반화로 극복될 수 있을지도?).
    3. 정확한 추론 경로를 보장할 수 없으며, 이는 정확한 답변과 잘못된 답변 모두를 이끌 수 있음
      언어 모델의 사실적 생성을 개선하는 것은 향후 연구의 개방된 방향입니다
    4. Chain of thougth가 큰 모델 규모에서만 나타나는 것은 실제 응용에서 비용이 많이 드는 문제를 초래합니다; 추가 연구는 더 작은 모델에서 추론을 유도하는 방법을 탐색할 수 있음
Designed by Tistory.