ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 20. Training language models to follow instructions with human feedback
    논문 2024. 5. 19. 17:35

    Instruct GPT에 내용 또한 중요한 내용이여서 정리하고자 글 작성~


    언어 모델을 크게 만드는 것이 사용자의 의도에 맞는 답변을 하는 데 마냥 좋은 것은 아님

    예를 들어, 대형 언어 모델은 진실하지 않고, 유해하거나, 단순히 사용자에게 도움이 되지 않는 출력을 생성할 수 있습니다. 즉, 이러한 모델은 사용자와 일치하지 않습니다.

    본 논문에서는 라벨러가 작성한 프롬프트와 OpenAI API를 통해 제출된 프롬프트 집합으로 시작하여, 원하는 모델 동작의 레이블러 데모를 수집하는 데이터셋을 수집하고, 이를 사용하여 감독 학습을 통해 GPT-3를 미세 조정함으로써 사용자 의도와 언어 모델을 일치시키는 방법을 보여줍니다. 그런 다음 모델 출력의 순위를 나타내는 데이터셋을 수집하고, 이를 사용하여 강화 학습을 통해 이 감독 모델을 추가로 미세 조정합니다. 결과 모델을 InstructGPT라고 합니다.

    우리의 프롬프트 분포에 대한 인간 평가에서, 매개변수가 1.3B인 InstructGPT 모델의 출력이 매개변수가 175B인 GPT-3의 출력보다 선호되었음에도 불구하고, 100배 적은 매개변수를 가지고 있습니다. 더욱이, InstructGPT 모델은 진실성이 향상되고 유해한 출력 생성이 감소하는 것으로 나타났으며, 공개 NLP 데이터셋에서의 성능 회귀는 최소화되었습니다. InstructGPT는 여전히 간단한 실수를 하지만, 결과적으로 인간 피드백을 통한 미세 조정은 언어 모델을 인간 의도와 일치시키는 유망한 방향임을 보여줍니다.

    1. 프롬프트 수집: 먼저, 사용자 또는 라벨러가 작성한 프롬프트를 수집합니다. 이 프롬프트는 GPT 모델이 해결해야 할 다양한 자연어 처리 작업을 포함할 수 있습니다. 이 프롬프트들은 질문에 대한 답변을 요구하거나, 특정 주제에 대한 설명을 요청하는 등 구체적인 지시를 포함할 수 있습니다.
    2. 모델 응답 생성: GPT 모델은 수집된 프롬프트를 기반으로 응답을 생성합니다. 이 단계에서 모델은 자체 학습을 바탕으로 가장 적절하다고 판단되는 내용을 출력합니다.
    3. 라벨러 평가 및 데모 생성: 생성된 모델 응답을 라벨러가 검토합니다. 라벨러는 모델이 제공한 답변이 정확하고 사용자의 의도에 부합하는지 평가하며, 잘못된 경우 올바른 응답이 어떻게 되어야 하는지 데모를 제공할 수 있습니다. 이 데모는 모델이 학습할 수 있는 정확한 예시로 사용됩니다.
    4. 감독 학습을 통한 파인튜닝: 라벨러의 피드백과 정확한 데모를 바탕으로 모델을 추가적으로 학습시킵니다. 이 감독 학습 단계에서는 라벨러가 제공한 올바른 응답을 모델이 학습하여, 유사한 프롬프트에 대해 더 정확하게 응답할 수 있도록 조정합니다.

    대형 언어 모델(LMs)은 입력으로 작업의 몇 가지 예를 제공받아 다양한 자연 언어 처리(NLP) 작업을 수행하도록 "프롬프트"할 수 있습니다. 그러나 이러한 모델들은 종종 사실을 날조하거나, 편향된 또는 유해한 텍스트를 생성하거나, 사용자의 지시를 따르지 않는 등의 의도하지 않은 행동을 표현합니다. 이는 최근 대형 LMs에 사용된 언어 모델링 목표가 인터넷의 웹페이지에서 다음 토큰을 예측하는 것과 "사용자의 지시를 유용하고 안전하게 따르는" 목표와 다르기 때문입니다. 따라서 언어 모델링 목표는 부합하지 않는다고 말할 수 있습니다. 이러한 의도하지 않은 행동을 방지하는 것은 수백 개의 애플리케이션에서 배포되어 사용되는 언어 모델에게 특히 중요합니다.

    PPO (Proximal Policy Optimization)와 SFT (Supervised Fine-Tuning)는 모두 인공지능 모델, 특히 심층 강화학습과 심층 학습에서 사용되는 두 가지 다른 훈련 방법입니다. 이들 각각은 특정 목적과 환경에 맞춰 설계되었으며, 언어 모델 같은 복잡한 모델을 훈련시키는 데 특히 유용합니다. 다음은 각 기법에 대한 자세한 설명입니다.

    PPO (Proximal Policy Optimization)
    PPO는 강화 학습(RL)의 일종으로, 특히 정책 기반(policy-based) 강화 학습 알고리즘입니다. 이 방법은 에이전트가 환경과 상호 작용하며 수행하는 행동의 정책을 직접 최적화합니다. PPO의 주요 목표는 보상을 최대화하는 방향으로 행동 정책을 조정하는 것입니다.

    특징 및 장점:
    안정성과 효율성: PPO는 TRPO (Trust Region Policy Optimization)의 아이디어를 기반으로 하여, 계산적으로 더 효율적이면서도 성능은 유사하게 유지합니다. 이는 정책 업데이트가 너무 멀리 가지 않도록 제한함으로써 이루어집니다.
    클리핑 메커니즘: PPO는 정책 비율(policy ratio)의 변화를 클리핑(clip)하여 업데이트 동안의 변동을 제한함으로써 훈련 중의 안정성을 증가시킵니다.
    다양한 환경 적용 가능: PPO는 비디오 게임에서부터 로봇 제어에 이르기까지 다양한 환경에서 강화 학습 문제를 해결하는 데 널리 사용됩니다.


    SFT (Supervised Fine-Tuning)
    SFT는 주어진 데이터셋에 대해 사전 훈련된 모델을 더욱 특화된 작업이나 데이터셋에 맞게 미세 조정하는 과정입니다. 이 방법은 대개 감독 학습(supervised learning) 설정에서 사용되며, 라벨이 붙은 데이터를 사용하여 모델의 성능을 개선합니다.
    특징 및 장점:
    특정 작업에 최적화: SFT는 모델을 특정 작업이나 도메인에 맞게 조정할 수 있도록 도와, 보다 정확한 예측이나 출력을 가능하게 합니다.데이터 효율성: 사전에 충분히 훈련된 모델을 사용하면 적은 양의 데이터로도 높은 성능의 미세 조정이 가능합니다.
    빠른 수렴: 모델이 이미 큰 데이터셋에서 사전 학습을 받았기 때문에, 새로운 작업에 대해 빠르게 수렴하고 효율적으로 학습할 수 있습니다.

    PPO와 SFT는 서로 다른 상황과 요구 사항에 맞게 모델을 최적화하는 데 사용됩니다. PPO는 에이전트가 환경 내에서 최적의 행동을 배우도록 하는 반면, SFT는 주어진 작업에 대해 이미 어느 정도 학습된 모델의 성능을 구체적으로 향상시키는 데 초점을 맞춥니다. 이러한 기법들은 복잡한 언어 모델 훈련에 매우 유용하게 사용될 수 있습니다.

    우리는 사용자의 의도에 따라 행동하도록 언어 모델을 훈련시킴으로써 진전을 이루고 있습니다(Leike et al., 2018). 이것은 지시를 따르는 것과 같은 명시적인 의도뿐만 아니라 진실을 유지하고, 편향되거나 유해하거나 다른 해로운 행동을 하지 않는 것과 같은 암묵적인 의도를 포함합니다. Askell et al. (2021)의 언어를 사용하여, 우리는 언어 모델이 사용자가 그들의 작업을 해결하는 데 도움이 되어야 한다는 것(도움이 되어야 함), 정보를 날조하거나 사용자를 오도해서는 안 된다는 것(정직해야 함), 사람들이나 환경에 물리적, 심리적, 사회적 해를 끼쳐서는 안 된다는 것(무해해야 함)을 원합니다. 우리는 이러한 기준의 평가를 섹션 3.6에서 자세히 설명합니다.

    우리는 언어 모델을 조정하는 접근법에 중점을 둡니다. 구체적으로, 우리는 인간 피드백으로부터의 강화 학습(RLHF; Christiano et al., 2017; Stiennon et al., 2020)을 사용하여 GPT-3을 광범위한 서면 지시를 따르도록 미세 조정합니다(그림 2 참조). 이 기술은 인간의 선호도를 보상 신호로 사용하여 우리 모델을 미세 조정합니다. 우리는 먼저 선별 테스트에서의 성능에 따라 데이터를 라벨링할 40명의 계약자를 고용합니다(섹션 3.4 및 부록 B.1에서 자세한 내용 참조). 그런 다음 OpenAI API에 제출된 (주로 영어) 프롬프트와 일부 라벨러가 작성한 프롬프트에서 원하는 출력 행동의 인간 작성 데모의 데이터셋을 수집하고 이를 사용하여 감독 학습 기준을 훈련합니다. 다음으로, 우리 모델에서 나온 출력 간의 비교에 대한 데이터셋을 수집합니다. 그런 다음 이 데이터셋에서 보상 모델(RM)을 훈련하여 라벨러가 선호할 모델 출력을 예측합니다. 마지막으로, 이 RM을 보상 기능으로 사용하고 PPO 알고리즘(Schulman et al., 2017)을 사용하여 보상을 극대화하기 위해 감독 학습 기준을 미세 조정합니다. 이 과정은 GPT-3의 행동을 특정 인간 그룹(주로 우리 라벨러 및 연구원들)의 명시된 선호도에 맞추어 조정하는 것이지, "인간 가치"의 어떠한 더 넓은 개념에도 해당하지 않습니다. 우리는 이것을 섹션 5.2에서 더 자세히 논의합니다. 결과 모델을 InstructGPT라고 부릅니다.

    우리는 주로 라벨러가 훈련 데이터에 포함되지 않은 고객(보류 중인 고객)의 프롬프트로 구성된 테스트 세트에서 모델 출력의 품질을 평가함으로써 우리 모델을 평가합니다. 또한 우리는 다양한 공개 NLP 데이터셋에서 자동 평가를 수행합니다. 우리는 세 가지 모델 크기(1.3B, 6B, 175B 매개변수)를 훈련하며, 모든 모델은 GPT-3 아키텍처를 사용합니다. 우리의 주요 발견은 다음과 같습니다:

     

    라벨러들은 GPT-3 출력보다 InstructGPT 출력을 훨씬 선호합니다. 우리의 테스트 세트에서, 매개변수가 1.3B인 InstructGPT 모델의 출력이 175B GPT-3의 출력보다 선호됩니다. 이 모델들은 동일한 아키텍처를 가지고 있으며, 차이점은 InstructGPT가 우리의 인간 데이터에 미세 조정되었다는 사실뿐입니다. 이 결과는 GPT-3에 몇 가지 샷 프롬프트를 추가하여 지시 사항을 더 잘 따르도록 할 때에도 유효합니다. 175B InstructGPT의 출력은 85 ± 3%의 시간 동안 175B GPT-3의 출력보다 선호되며, 몇 샷 175B GPT-3보다는 71 ± 4%의 시간 동안 선호됩니다. InstructGPT 모델은 또한 우리 라벨러에 따라 더 적절한 출력을 생성하며, 명시적인 지시에서 더 신뢰성 있게 따릅니다.

    InstructGPT 모델은 GPT-3보다 진실성에서 개선을 보여줍니다. TruthfulQA 벤치마크에서, InstructGPT는 GPT-3보다 거의 두 배 자주 진실하고 유익한 답변을 생성합니다. 우리의 결과는 GPT-3에 대해 적대적으로 선택되지 않은 질문의 부분 집합에서도 마찬가지로 강합니다. 우리 API 프롬프트 분포의 "닫힌 도메인" 작업에서, 출력이 입력에 없는 정보를 포함해서는 안 되는 경우(예: 요약 및 닫힌 도메인 QA), InstructGPT 모델은 입력에 없는 정보를 GPT-3보다 절반 정도 자주 만들어냅니다(각각 21% 대 41% 환각률).

    InstructGPT는 GPT-3보다 독성에서 소폭 개선을 보여주지만, 편견에서는 그렇지 않습니다. 독성을 측정하기 위해, 우리는 RealToxicityPrompts 데이터셋(Gehman et al., 2020)을 사용하고 자동 및 인간 평가를 수행합니다. 존중을 유도하는 프롬프트가 제시될 때, InstructGPT 모델은 GPT-3보다 약 25% 적은 독성 출력을 생성합니다. InstructGPT는 Winogender(Rudinger et al., 2018) 및 CrowSPairs(Nangia et al., 2020) 데이터셋에서 GPT-3보다 유의미한 개선을 보이지 않습니다.

    우리는 RLHF 미세 조정 절차를 수정함으로써 공개 NLP 데이터셋에서의 성능 회귀를 최소화할 수 있습니다. RLHF 미세 조정 동안, 우리는 SQuAD(Rajpurkar et al., 2018), DROP(Dua et al., 2019), HellaSwag(Zellers et al., 2019), WMT 2015 프랑스어에서 영어로의 번역(Bojar et al., 2015)을 포함한 특정 공개 NLP 데이터셋에서 GPT-3에 비해 성능이 떨어지는 것을 관찰합니다. 이것은 우리의 조정 절차가 우리가 관심을 가질 수 있는 특정 작업에서 더 낮은 성능으로 이어진다는 점에서 "조정 세금"의 예입니다. 우리는 사전 훈련 분포의 로그 가능성을 증가시키는 업데이트와 PPO 업데이트를 혼합함으로써 이러한 데이터셋에서 성능 회귀를 크게 줄일 수 있습니다(라벨러 선호도 점수를 저하시키지 않으면서).

    우리의 모델은 훈련 데이터를 생성하지 않은 "보류 중인" 라벨러의 선호도에 일반화됩니다. 우리 모델의 일반화를 테스트하기 위해, 우리는 보류 중인 라벨러와 함께 예비 실험을 수행하고, 그들이 우리 훈련 라벨러와 거의 같은 비율로 GPT-3의 출력보다 InstructGPT 출력을 선호하는 것을 발견합니다. 그러나 이 모델들이 더 넓은 사용자 그룹에서 어떻게 수행되는지, 그리고 인간들이 원하는 행동에 대해 동의하지 않는 입력에서 어떻게 수행되는지에 대해 연구할 필요가 있습니다.

    공개 NLP 데이터셋은 우리의 언어 모델이 사용되는 방식을 반영하지 않습니다. 우리는 인간 선호 데이터(즉, InstructGPT)로 미세 조정된 GPT-3와 두 가지 다른 공개 NLP 작업의 컴파일인 FLAN(Wei et al., 2021) 및 T0(Sanh et al., 2021)(특히 T0++ 변형)로 미세 조정된 GPT-3를 비교합니다. 이 데이터셋들은 각 작업에 대한 자연어 지시사항과 결합된 다양한 NLP 작업으로 구성됩니다. 우리 API 프롬프트 분포에서, 우리의 FLAN 및 T0 모델은 우리의 SFT 기준보다 약간 성능이 떨어지며, 라벨러는 이 모델들보다 InstructGPT를 현저하게 선호합니다(InstructGPT는 우리 기준에 대해 73.4 ± 2%의 승률을 가지며, 우리 버전의 T0와 FLAN은 각각 26.8 ± 2% 및 29.8 ± 2%입니다).

    InstructGPT 모델은 RLHF 미세 조정 분포 외부의 지시를 따를 수 있는 유망한 일반화를 보여줍니다. 우리는 InstructGPT의 능력을 질적으로 탐구하고, 코드를 요약하고 코드에 대한 질문에 답하며 때때로 이러한 지시가 미세 조정 분포에서 매우 드물더라도 다른 언어로 지시를 따를 수 있는 것을 발견합니다. 대조적으로, GPT-3는 이러한 작업을 수행할 수 있지만 더 세심한 프롬프팅이 필요하며, 일반적으로 이러한 도메인에서 지시를 따르지 않습니다. 이 결과는 우리의 모델이 '지시 따르기'라는 개념을 일반화할 수 있다는 것을 시사하며, 그들은 직접 감독 신호를 거의 받지 않는 작업에서도 일부 정렬을 유지합니다.

    InstructGPT는 여전히 간단한 실수를 합니다. 예를 들어, InstructGPT는 여전히 지시를 따르지 못하거나, 사실을 만들어내거나, 간단한 질문에 대해 긴 망설임 답변을 제공하거나, 거짓 전제가 있는 지시를 감지하지 못할 수 있습니다.

    전반적으로, 우리의 결과는 인간의 선호를 사용하여 대형 언어 모델을 미세 조정하면 다양한 작업에서 그들의 행동이 크게 개선된다는 것을 나타냅니다. 그러나 그들의 안전성과 신뢰성을 향상시키기 위해 해야 할 일이 많이 남아 있습니다.

    이 논문의 나머지 부분은 다음과 같이 구성됩니다: 우리는 섹션 2에서 관련 작업을 자세히 설명한 다음, 섹션 3에서 우리의 방법과 실험 세부 사항, 고차원 방법론(3.1), 작업 및 데이터셋 세부 사항(3.3 및 3.2), 인간 데이터 수집(3.4), 모델 훈련 방법(3.5), 평가 절차(3.6)에 대해 설명합니다. 그런 다음 우리는 섹션 4에서 세 부분으로 나뉘어진 우리의 결과를 제시합니다: API 프롬프트 분포에 대한 결과(4.1), 공개 NLP 데이터셋에 대한 결과(4.2), 질적 결과(4.3). 마지막으로, 우리는 섹션 5에서 우리의 연구에 대한 확장된 논의를 제공합니다. 이것은 조정 연구에 대한 함의(5.1), 우리가 무엇을 조정하고 있는지(5.2), 제한 사항(5.3), 열린 질문(5.4), 그리고 이 작업의 더 넓은 영향(5.5)을 포함합니다.


    2. 관련 연구

    인간 피드백에서 학습하고 모델을 인간 의도와 조화시키는 연구. 우리는 인간 의도와 모델을 조화시키기 위한 이전 기술, 특히 인간 피드백에서의 강화 학습(RLHF)을 발전시킵니다. 원래는 시뮬레이션된 환경과 아타리 게임에서 간단한 로봇을 훈련시키기 위해 개발되었던 이 기술은 최근에 텍스트 요약을 위한 언어 모델 미세 조정에 적용되었습니다(Ziegler et al., 2019; Stiennon et al., 2020; Böhm et al., 2019; Wu et al., 2021). 이 작업은 대화(Jaques et al., 2019; Yi et al., 2019; Hancock et al., 2019), 번역(Kreutzer et al., 2018; Bahdanau et al., 2016), 의미 파싱(Lawrence and Riezler, 2018), 스토리 생성(Zhou and Xu, 2020), 리뷰 생성(Cho et al., 2018), 증거 추출(Perez et al., 2019)과 같은 분야에서 인간 피드백을 보상으로 사용하는 유사한 작업에 의해 영향을 받았습니다. Madaan et al. (2022)은 GPT-3의 성능을 향상시키기 위해 프롬프트를 보강하는 데 인간의 서면 피드백을 사용합니다. 또한, 규범적 사전 확률을 사용하여 텍스트 기반 환경에서 에이전트를 조정하는 작업이 수행되었습니다(Nahian et al., 2021). 우리의 작업은 언어 작업의 광범위한 분포에 대한 언어 모델을 조정하는 RLHF의 직접적인 적용으로 볼 수 있습니다.

    언어 모델이 조화되었다는 것이 의미하는 바에 대한 질문은 최근 주목을 받고 있습니다(Gabriel, 2020). Kenton et al. (2021)은 잘못된 목표를 게임화하고 해로운 콘텐츠를 생성하는 등 LMs에서 불일치로 인해 발생하는 행동 문제를 카탈로그화합니다. 동시에 수행된 연구에서 Askell et al. (2021)은 조정 연구를 위한 실험실로서 언어 조수를 제안하고, 몇 가지 간단한 기준을 연구하며 그들의 확장성을 연구합니다.

    지시를 따르도록 언어 모델 훈련. 우리의 작업은 또한 언어 모델에서 교차 작업 일반화에 관한 연구와 관련이 있습니다. 여기서 LMs는 공개 NLP 데이터 세트의 광범위한 범위에 미세 조정되고(일반적으로 적절한 지시사항으로 접두사가 붙음) 다른 세트의 NLP 작업에서 평가됩니다. 이 분야에서는 다양한 연구가 수행되었습니다(Yi et al., 2019; Mishra et al., 2021; Wei et al., 2021; Khashabi et al., 2020; Sanh et al., 2021; Aribandi et al., 2021). 이 연구들은 훈련 및 평가 데이터, 지시사항의 형식, 사전 훈련된 모델의 크기 및 기타 실험적 세부사항에서 다릅니다. 일관된 발견은 지시사항이 있는 NLP 작업의 범위에서 LMs을 미세 조정하면 보류 중인 작업에서 하류 성능이 향상된다는 것입니다(제로-샷 및 퓨-샷 설정 모두에서).

    탐색을 위한 지시 따르기에 관한 관련 연구 라인도 있습니다. 여기서 모델은 시뮬레이션된 환경에서 자연어 지시를 따라 탐색하도록 훈련됩니다(Bahdanau et al., 2018; Abramson et al., 2020; Zhao et al., 2021).

    언어 모델의 해로움 평가. 언어 모델의 행동을 수정하는 목표는 실제 세계에서 배포될 때 이 모델들의 해로움을 완화하는 것입니다. 이러한 위험은 광범위하게 문서화되어 있습니다(Bender et al., 2021; Bommasani et al., 2021; Kenton et al., 2021; Weidinger et al., 2021; Tamkin et al., 2021). 언어 모델은 편향된 출력을 생성할 수 있습니다(Dhamala et al., 2021; Liang et al., 2021; Manela et al., 2021; Caliskan et al., 2017; Kirk et al., 2021), 개인 데이터를 유출할 수 있습니다(Carlini et al., 2021), 잘못된 정보를 생성할 수 있습니다(Solaiman et al., 2019; Buchanan et al., 2021), 그리고 악의적으로 사용될 수 있습니다. 이러한 해로움을 구체적으로 평가하기 위해 벤치마크를 구축하려는 초기 단계이지만 성장하고 있는 분야가 있습니다. 독성(Gehman et al., 2020), 고정 관념(Nadeem et al., 2020), 사회적 편견(Dhamala et al., 2021; Nangia et al., 2020; Rudinger et al., 2018)을 중심으로 이루어집니다. LM 행동에 대한 선의의 개입이 부작용을 일으킬 수 있기 때문에 이 문제들에 대한 상당한 진전을 이루기는 어렵습니다(Welbl et al., 2021; Blodgett et al., 2020). 예를 들어, LMs의 독성을 줄이려는 노력은 훈련 데이터에서 편견적 상관 관계로 인해 소수 집단의 텍스트를 모델링하는 능력을 감소시킬 수 있습니다(Xu et al., 2021).

    언어 모델의 생성 행동을 변경하여 해를 완화합니다. 언어 모델의 생성 행동을 변경하는 방법은 많습니다. Solaiman과 Dennison(2021)은 작고, 가치가 있는 데이터 세트에서 LMs을 미세 조정하여, 질문 응답 작업에서 이러한 가치를 준수하는 모델의 능력을 향상시킵니다. Ngo et al. (2021)은 언어 모델이 연구자가 작성한 트리거 문구 세트를 생성할 가능성이 높은 문서를 제거함으로써 사전 훈련 데이터 세트를 필터링합니다. 이 필터링된 데이터 세트에서 훈련된 그들의 LMs은 언어 모델링 성능이 약간 감소하는 비용으로 덜 해로운 텍스트를 생성합니다. Xu et al. (2020)은 데이터 필터링, 생성 중 특정 단어나 n-gram 차단, 안전 특정 제어 토큰(Keskar et al., 2019; Dinan et al., 2019a), 인간 인 더 루프 데이터 수집(Dinan et al., 2019b)을 포함하여 챗봇의 안전성을 향상시키기 위한 다양한 접근 방식을 사용합니다. LMs에서 생성된 편견을 완화하기 위한 다른 접근 방식으로는 단어 임베딩 규제(Liu et al., 2019; Huang et al., 2019), 데이터 증대(Liu et al., 2019; Dinan et al., 2019a; Sheng et al., 2019), 민감한 토큰에 대한 분포를 더 균일하게 만들기 위한 널 공간 투영(Liang et al., 2021), 다른 목표 함수(Qian et al., 2019) 또는 인과 매개 분석(Vig et al., 2020)이 있습니다. 또한 언어 모델 생성을 제어하기 위해 두 번째(보통 더 작은) 언어 모델을 사용하는 작업(Dathathri et al., 2019; Krause et al., 2020)이 있으며, 이 아이디어의 변형은 언어 모델 독성을 줄이기 위해 적용되었습니다(Schick et al., 2021).


    3. 방법 및 실험 세부 사항

    3.1 고차원 방법론

    우리의 방법론은 Ziegler et al. (2019)과 Stiennon et al. (2020)이 스타일 지속 및 요약 분야에서 적용한 것을 따릅니다. 우리는 사전 훈련된 언어 모델(Radford et al., 2019; Brown et al., 2020; Fedus et al., 2021; Rae et al., 2021; Thoppilan et al., 2022), 모델이 조화된 출력을 생성하기를 원하는 프롬프트 분포, 그리고 훈련된 인간 라벨러 팀(세부 사항은 3.4절 참조)을 시작점으로 합니다. 그런 다음 다음 세 단계를 적용합니다(그림 2).

    단계 1: 데모 데이터 수집 및 감독 정책 훈련. 라벨러들은 입력 프롬프트 분포에서 원하는 행동의 데모를 제공합니다(이 분포에 대한 세부 사항은 3.2절 참조). 그런 다음 이 데이터를 사용하여 사전 훈련된 GPT-3 모델을 감독 학습으로 미세 조정합니다.

    단계 2: 비교 데이터 수집 및 보상 모델 훈련. 모델 출력 간의 비교 데이터셋을 수집하고, 라벨러가 주어진 입력에 대해 선호하는 출력을 나타내도록 합니다. 그런 다음 인간이 선호하는 출력을 예측하도록 보상 모델을 훈련합니다.

    단계 3: 보상 모델을 사용하여 정책 최적화. RM의 출력을 스칼라 보상으로 사용합니다. 우리는 PPO 알고리즘(Schulman et al., 2017)을 사용하여 이 보상을 최적화하도록 감독 정책을 미세 조정합니다.

    2단계와 3단계는 지속적으로 반복될 수 있습니다. 현재 최고의 정책에 대한 더 많은 비교 데이터가 수집되며, 이는 새로운 RM을 훈련하고 그 다음 새로운 정책을 훈련하는 데 사용됩니다. 실제로 대부분의 비교 데이터는 감독 정책에서 나오며 일부는 PPO 정책에서 나옵니다.

    3.2 데이터셋

    우리의 프롬프트 데이터셋은 주로 OpenAI API에 제출된 텍스트 프롬프트로 구성되어 있으며, 특히 이전 버전의 InstructGPT 모델(데모 데이터의 하위 집합에 대한 감독 학습을 통해 훈련됨)을 사용하는 Playground 인터페이스에서 사용됩니다. Playground를 사용하는 고객들은 InstructGPT 모델이 사용될 때마다 반복적으로 그들의 데이터가 추가 모델 훈련에 사용될 수 있음을 알리는 알림을 받았습니다. 이 논문에서는 생산 API를 사용하는 고객의 데이터는 사용하지 않습니다. 우리는 공통 접두사를 공유하는 프롬프트를 확인하여 프롬프트를 유추적으로 중복 제거하고, 사용자 ID 당 프롬프트 수를 200개로 제한합니다. 또한 사용자 ID를 기반으로 훈련, 검증, 테스트 분할을 생성하여 검증 및 테스트 세트에 훈련 세트의 사용자 데이터가 포함되지 않도록 합니다. 모델이 잠재적으로 민감한 고객 세부 정보를 학습하는 것을 피하기 위해 훈련 분할의 모든 프롬프트를 개인 식별 정보(PII)에 대해 필터링합니다.

    가장 처음의 InstructGPT 모델을 훈련시키기 위해, 우리는 라벨러들에게 스스로 프롬프트를 작성하도록 요청했습니다. 이는 우리에게 초기의 지시 같은 프롬프트 소스가 필요했기 때문이며, 이러한 종류의 프롬프트는 일반적으로 API의 정규 GPT-3 모델에 제출되지 않았습니다. 우리는 라벨러들에게 세 가지 종류의 프롬프트를 작성하도록 요청했습니다:

    • 일반: 우리는 단순히 라벨러에게 임의의 작업을 제안하도록 요청하면서 작업이 충분한 다양성을 갖도록 합니다.
    • 퓨-샷: 우리는 라벨러에게 지시를 내리고 해당 지시에 대한 여러 질의/응답 쌍을 만들도록 요청합니다.
    • 사용자 기반: 우리는 OpenAI API의 대기자 명단 응용 프로그램에서 명시된 여러 사용 사례를 가지고 있습니다. 우리는 라벨러에게 이러한 사용 사례에 해당하는 프롬프트를 만들도록 요청했습니다.

    이 프롬프트에서, 우리는 미세 조정 절차에 사용된 세 가지 다른 데이터셋을 생성합니다: (1) SFT 데이터셋, 라벨러 데모가 SFT 모델 훈련에 사용됨, (2) RM 데이터셋, 라벨러의 모델 출력 순위가 RM 훈련에 사용됨, 그리고 (3) PPO 데이터셋, RLHF 미세 조정에 사용되는 인간 라벨이 없는 입력입니다. SFT 데이터셋은 API와 라벨러가 작성한 약 13k 훈련 프롬프트를 포함하며, RM 데이터셋은 API와 라벨러가 작성한 33k 훈련 프롬프트를 가지고 있으며, PPO 데이터셋은 API에서만 31k 훈련 프롬프트를 가지고 있습니다. 데이터셋 크기에 대한 자세한 내용은 표 6에 제공됩니다.

    우리의 데이터셋 구성을 설명하기 위해, 표 1에서는 우리 API 프롬프트의 사용 사례 범주 분포(특히 RM 데이터셋)를 우리 계약자가 라벨링한 것을 보여줍니다. 대부분의 사용 사례는 분류나 QA보다는 생성적입니다. 또한, 표 2에는 연구자들이 InstructGPT 모델에 제출된 프롬프트 유형을 모방하여 작성한 일부 설명적 프롬프트를 보여줍니다; InstructGPT 모델에 제출된 더 많은 프롬프트는 부록 A.2.1에, GPT-3 모델에 제출된 프롬프트는 부록 A.2.2에 나타나 있습니다. 우리 데이터셋에 대한 자세한 내용은 부록 A에서 제공됩니다.

    3.3 작업

    우리의 훈련 작업은 두 가지 출처에서 나옵니다: (1) 라벨러가 작성한 프롬프트 데이터셋과 (2) 초기 InstructGPT 모델에 제출된 API의 프롬프트 데이터셋(표 6 참조). 이 프롬프트는 매우 다양하며 생성, 질문 응답, 대화, 요약, 추출 및 기타 자연어 작업을 포함합니다(표 1 참조). 우리 데이터셋은 96% 이상이 영어이지만, 섹션 4.3에서는 다른 언어로 지시에 응답하고 코딩 작업을 완료하는 모델의 능력도 조사합니다.

    각 자연어 프롬프트의 경우, 작업은 대개 자연어 지시를 통해 직접 지정됩니다(예: "현명한 개구리에 관한 이야기를 써 보세요"), 하지만 경우에 따라서는 몇 가지 예시(예: 두 개의 개구리 이야기 예를 주고 모델에게 새 이야기를 생성하도록 유도)를 통해 간접적으로 또는 암시적 연속을 통해 지정될 수도 있습니다(예: 개구리 이야기의 시작을 제공). 각 경우에 우리는 라벨러들에게 프롬프트를 작성한 사용자의 의도를 최대한 추론하도록 요청하며, 작업이 매우 불분명한 입력은 건너뛰도록 요청합니다. 또한, 우리 라벨러들은 응답의 진실성과 잠재적으로 해로운 출력(예: 편향된 또는 유독한 언어)과 같은 암묵적 의도도 고려합니다. 이는 우리가 제공하는 지침(부록 B 참조)과 그들의 최선의 판단에 따라 안내됩니다.

    3.4 인간 데이터 수집

    데모 및 비교 데이터를 생성하고 주요 평가를 수행하기 위해, 우리는 Upwork 및 ScaleAI를 통해 약 40명의 계약자를 고용했습니다. 요약 작업에 대한 인간 선호도 데이터를 수집하는 초기 연구(Ziegler et al., 2019; Stiennon et al., 2020; Wu et al., 2021)와 비교하여, 우리의 입력은 훨씬 더 넓은 범위의 작업을 포괄하며 가끔 논란이 되고 민감한 주제를 포함할 수 있습니다. 우리의 목표는 다양한 인구 통계 그룹의 선호도에 민감한 라벨러 그룹을 선발하고, 잠재적으로 해로운 출력을 식별하는 데 능숙한 라벨러를 선택하는 것이었습니다. 따라서 우리는 이러한 축에서 라벨러의 성능을 측정하기 위해 선별 테스트를 실시했습니다. 이 테스트에서 잘 수행한 라벨러를 선발했습니다; 선발 절차와 라벨러 인구 통계에 대한 자세한 정보는 부록 B.1을 참조하십시오.

    훈련 및 평가 중에, 우리의 조정 기준이 충돌할 수 있습니다. 예를 들어, 사용자가 잠재적으로 해로운 응답을 요청할 때. 훈련 중에는 사용자에게 도움이 되는 것을 우선시합니다(그렇지 않으면 일부 어려운 설계 결정을 내려야 하며, 이는 미래의 작업으로 남겨둡니다; 섹션 5.4에서 더 논의). 그러나 최종 평가에서는 라벨러에게 진실성과 무해함을 우선시하도록 요청합니다(이것이 우리가 실제로 관심 있는 것입니다).

    Stiennon et al. (2020)에서와 같이, 우리는 프로젝트 전반에 걸쳐 라벨러와 긴밀히 협력합니다. 우리는 프로젝트에 대한 라벨러 교육을 위한 입문 과정을 가지고 있으며, 각 작업에 대한 자세한 지침을 작성하고(부록 B.2 참조), 공유 채팅방에서 라벨러의 질문에 답합니다.

    우리 모델이 다른 라벨러의 선호도에 얼마나 잘 일반화되는지 보기 위한 초기 연구로, 우리는 훈련 데이터를 생성하지 않는 별도의 라벨러 세트를 고용합니다. 이 라벨러들은 동일한 공급업체에서 출처를 받지만 선별 테스트를 거치지 않습니다.

    작업의 복잡성에도 불구하고, 우리는 주석자 간 합의율이 매우 높다는 것을 발견합니다: 훈련 라벨러들은 서로 72.6 ± 1.5%의 시간 동안 동의하며, 보류 중인 라벨러의 경우 이 수치는 77.3 ± 1.3%입니다. 비교를 위해, Stiennon et al. (2020)의 요약 작업에서 연구자 간 합의는 73 ± 4%였습니다.

    3.5 모델

    우리는 Brown et al. (2020)에서 사전 훈련된 GPT-3 언어 모델로 시작합니다. 이 모델들은 인터넷 데이터의 광범위한 분포에서 훈련되었으며, 다양한 하류 작업에 적응할 수 있지만, 그 행동은 잘 특성화되지 않았습니다. 이 모델들로부터, 우리는 세 가지 다른 기법으로 모델을 훈련합니다:

    감독 미세 조정(SFT). 우리는 감독 학습을 사용하여 라벨러 데모에 GPT-3을 미세 조정합니다. 우리는 코사인 학습률 감소와 잔류 드롭아웃 0.2를 사용하여 16 에포크 동안 훈련했습니다. 우리는 검증 세트에서 RM 점수를 기반으로 최종 SFT 모델 선택을 합니다. Wu et al. (2021)과 유사하게, 우리는 1 에포크 후에 SFT 모델이 검증 손실에서 과적합되는 것을 발견했습니다; 그러나 더 많은 에포크 동안 훈련하는 것이 RM 점수와 인간 선호도 평가를 모두 개선하는 데 도움이 되었습니다.

    보상 모델링(RM). 최종 언임베딩 층이 제거된 SFT 모델에서 시작하여, 프롬프트와 응답을 입력받아 스칼라 보상을 출력하는 모델을 훈련했습니다. 이 논문에서는 계산을 크게 절약하기 위해 6B RM만 사용하며, 175B RM 훈련이 불안정할 수 있어 RL 중 값 함수로 사용하기에 적합하지 않다는 것을 발견했습니다(자세한 내용은 부록 C 참조).

    Stiennon et al. (2020)에서, RM은 같은 입력에 대한 두 모델 출력 간의 비교 데이터셋에서 훈련됩니다. 그들은 교차 엔트로피 손실을 사용하며, 비교를 라벨로 사용합니다—보상 차이는 한 응답이 다른 응답보다 인간 라벨러에 의해 선호될 로그 확률을 나타냅니다.

    비교 수집을 가속화하기 위해, 우리는 라벨러에게 K = 4에서 K = 9 사이의 응답을 순위 매기도록 제시합니다. 이것은 라벨러에게 보여진 각 프롬프트에 대해 ( K ) 비교를 생성합니다. 라벨링 작업 내에서 2개의 비교가 매우 상관 관계가 있기 때문에, 우리는 단순히 비교를 하나의 데이터셋으로 섞으면 데이터셋을 한 번만 통과시키는 것이 보상 모델을 과적합시키게 됩니다. 대신, 우리는 각 프롬프트에서 모든 ( K ) 비교를 단일 배치 요소로 훈련합니다. 이것은 각 완성에 대해 RM의 단일 순방향 패스만 필요하기 때문에 훨씬 더 계산적으로 효율적이며( K 개 완성에 대한 ( K ) 순방향 패스보다), 더 이상 과적합되지 않기 때문에 향상된 검증 정확도와 로그 손실을 달성합니다.

    특히, 보상 모델의 손실 함수는 다음과 같습니다:

    이 손실 함수는 보상 모델이 인간의 선호를 기반으로 두 완성 간의 선호도를 예측하도록 훈련하는 데 사용됩니다. 다음은 그 수식의 한글 설명입니다:

    여기서:
    1.  \( r_\theta(x, y) \)는 프롬프트 \( x \)와 완성 \( y \)에 대해 파라미터 \( \theta \)를 사용하는 보상 모델의 스칼라 출력입니다.
    2.  \( y_w \)는 두 완성 \( y_w \)와 \( y_l \) 중에서 인간 라벨러에 의해 선호되는 완성입니다.
    3.  \( D \)는 인간 비교의 데이터셋을 나타냅니다.
    4.  \( \sigma \)는 시그모이드 함수로, 두 완성의 보상 차이를 통해 한 완성이 다른 완성보다 선호될 로그 확률을 계산합니다.

    이 손실 함수는 각 프롬프트에 대한 모든 비교를 평균하여 모델이 인간의 선호를 더 잘 반영하도록 합니다. \( K \)는 각 프롬프트에 대해 제시된 비교의 총 수입니다. 각 데이터 포인트는 프롬프트 \( x \)와 두 가지 다른 완성 \( y_w \)와 \( y_l \)로 구성되며, 이 중 선호도가 높은 완성이 보상 모델에 의해 더 높은 값을 받아야 합니다.

    강화 학습 (RL). Stiennon et al. (2020)을 다시 따라, 우리는 PPO(Schulman et al., 2017)를 사용하여 우리 환경에서 SFT 모델을 미세 조정했습니다. 환경은 임의의 고객 프롬프트를 제시하고 프롬프트에 대한 응답을 기대하는 밴딧 환경입니다. 프롬프트와 응답이 주어지면, 보상 모델에 의해 결정된 보상을 생성하고 에피소드를 종료합니다. 또한, 보상 모델의 과도한 최적화를 완화하기 위해 각 토큰에서 SFT 모델의 토큰 당 KL 패널티를 추가합니다. 가치 함수는 RM에서 초기화됩니다. 이 모델들을 "PPO"라고 합니다.

    우리는 또한 PPO 그라디언트에 사전 훈련 그라디언트를 혼합하여 공개 NLP 데이터셋에서의 성능 회귀를 수정하는 실험을 진행합니다. 이 모델들을 "PPO-ptx"라고 합니다. 우리는 강화 학습 훈련에서 다음과 같은 결합된 목표 함수를 최대화합니다:

    이 목적 함수는 강화 학습에서 사용되며, 두 가지 주요 구성 요소를 포함합니다.

    1.  \( r_{\phi}(x, y) \)는 프롬프트 \( x \)와 완성 \( y \)에 대해 학습된 강화 학습(RL) 정책 \( \pi_{\phi}^{RL} \)에서 파생된 보상 모델의 스칼라 출력입니다.
    2.  \( \pi_{\phi}^{RL} \)은 학습된 RL 정책을, \( \pi^{SFT} \)은 감독 훈련된 모델을 나타냅니다.
    3.  \( D_{\phi}^{RL} \)은 RL 데이터셋을, \( D_{\text{pretrain}} \)은 사전 훈련 분포를 나타냅니다.
    4.  \( \beta \)는 KL 보상 계수로, 보상 모델과 감독 학습 모델 간의 KL 발산을 조절하는 데 사용됩니다. 이 항은 정책이 기존 감독 학습 모델로부터 너무 멀어지지 않도록 제한합니다.
    5.  \( \gamma \)는 사전 훈련 손실 계수로, 사전 훈련 그라디언트의 강도를 조절합니다. "PPO" 모델에서는 \( \gamma \)가 0으로 설정됩니다.
    6.  이 논문에서는 "InstructGPT"가 PPO-ptx 모델을 가리키는 것으로 명시되어 있습니다. 이 목적 함수는 RL 훈련 중에 모델이 보상을 최대화하면서도 사전 훈련된 데이터의 분포를 벗어나지 않도록 유도합니다.

     

    기준선. 우리는 우리의 PPO 모델의 성능을 SFT 모델과 GPT-3과 비교합니다. 또한, 몇 개의 샷 접두사를 '프롬프트'로 제공하여 GPT-3이 지시를 따르는 모드로 들어가도록 하는 GPT-3-prompted와 비교합니다. 이 접두사는 사용자가 지정한 지시 앞에 추가됩니다.

    또한, 우리는 InstructGPT를 FLAN (Wei et al., 2021)과 T0 (Sanh et al., 2021) 데이터셋에서 175B GPT-3을 미세 조정하는 것과 비교합니다. 이 데이터셋들은 각 작업에 대한 자연어 지시와 결합된 다양한 NLP 작업으로 구성되어 있습니다(데이터셋에 포함된 NLP 데이터셋과 사용된 지시의 스타일이 다릅니다). 우리는 각각 약 백만 예제에서 그들을 미세 조정하고 검증 세트에서 가장 높은 보상 모델 점수를 얻는 체크포인트를 선택합니다. 더 많은 훈련 세부 사항은 부록 C에서 확인할 수 있습니다.

     

    3.6 평가

    우리 모델이 얼마나 "조화롭게" 행동하는지 평가하기 위해서는 먼저 이 맥락에서 조화의 의미를 명확히 해야 합니다. 조화의 정의는 역사적으로 모호하고 혼란스러운 주제였으며, 여러 경쟁 제안들이 있었습니다(Chen et al., 2021; Leike et al., 2018; Gabriel, 2020). Leike et al. (2018)을 따라, 우리의 목표는 사용자 의도에 따라 행동하는 모델을 훈련시키는 것입니다. 보다 실용적으로, 우리 언어 작업을 위해, 우리는 Askell et al. (2021)이 제안한 틀을 사용하여 모델이 도움이 되고, 정직하며, 무해하다면 조화롭다고 정의합니다.

    도움이 되기 위해 모델은 지시를 따라야 하지만, 몇 개의 샷 프롬프트나 "Q: {질문}\nA:"와 같은 해석 가능한 패턴에서 의도를 추론할 수도 있어야 합니다. 주어진 프롬프트의 의도가 불분명하거나 모호할 수 있기 때문에, 우리는 라벨러의 판단에 의존하며, 우리의 주요 지표는 라벨러 선호도 평가입니다. 그러나 우리의 라벨러들은 프롬프트를 생성한 사용자가 아니므로, 사용자가 실제로 의도한 것과 라벨러가 프롬프트만 읽고 생각한 의도 사이에 차이가 있을 수 있습니다.

    순수 생성 모델에서 정직함을 측정하는 방법은 불분명합니다. 이는 모델의 실제 출력과 "믿음"에 대한 출력을 비교하는 것을 요구하며, 모델이 큰 블랙박스이기 때문에 그 믿음을 추론할 수 없습니다. 대신, 우리는 모델의 세계에 대한 진술이 사실인지를 측정하는 진실성—두 가지 지표를 사용하여 측정합니다: (1) 닫힌 도메인 작업에서 정보를 만들어내는 경향을 평가하는 것("환각")과 (2) TruthfulQA 데이터셋(Lin et al., 2021)을 사용하는 것입니다. 불필요하게 말하자면, 이것은 진실성이 실제로 의미하는 것의 작은 부분만을 포착합니다.

    정직함과 유사하게, 언어 모델의 해로움을 측정하는 것도 많은 도전을 안고 있습니다. 대부분의 경우, 언어 모델로 인한 해로움은 그 출력이 실제 세계에서 어떻게 사용되는지에 따라 달라집니다. 예를 들어, 독성 출력을 생성하는 모델은 배포된 챗봇의 맥락에서 해로울 수 있지만, 더 정확한 독성 감지 모델을 훈련하기 위한 데이터 증강에 사용된다면 도움이 될 수도 있습니다. 프로젝트 초기에, 우리는 라벨러들이 출력이 '잠재적으로 해로울 수 있는지' 평가하게 했습니다. 그러나 이것은 출력이 최종적으로 어떻게 사용될지에 대한 너무 많은 추측을 요구했기 때문에, 특히 우리의 데이터도 프로덕션 사용 사례가 아닌 Playground API 인터페이스와 상호 작용하는 고객들로부터 나온 것이기 때문에 중단했습니다.

    따라서 우리는 배포된 모델의 행동이 해로울 수 있는 다양한 측면을 포착하려는 더 구체적인 대리 기준을 사용합니다: 우리는 라벨러들에게 고객 지원자 맥락에서 부적절한지, 보호받는 계층을 비하하거나 성적 또는 폭력적 내용을 포함하는지 여부를 평가하도록 합니다. 우리는 또한 RealToxicityPrompts (Gehman et al., 2020) 및 CrowS-Pairs (Nangia et al., 2020)와 같은 편견과 독성을 측정하기 위해 고안된 데이터셋에서 모델을 벤치마크합니다.

    요약하자면, 우리는 정량적 평가를 두 가지 별도의 부분으로 나눌 수 있습니다:

    API 분포에 대한 평가. 우리의 주요 지표는 훈련 분포와 동일한 출처에서 보류된 프롬프트 세트에 대한 인간 선호도 평가입니다. 평가에 API의 프롬프트를 사용할 때, 우리는 훈련에 포함되지 않은 고객의 프롬프트만 선택합니다. 그러나 우리의 훈련 프롬프트는 InstructGPT 모델과 함께 사용하도록 설계되었기 때문에, 그것들은 GPT-3 기준을 불리하게 할 가능성이 높습니다. 따라서 우리는 API의 GPT-3 모델에 제출된 프롬프트에서도 평가를 수행합니다; 이 프롬프트들은 일반적으로 '지시 따르기' 스타일이 아니지만 GPT-3을 위해 특별히 설계되었습니다. 두 경우 모두, 각 모델이 기준 정책에 비해 얼마나 자주 선호되는지를 계산합니다; 우리는 성능이 중간 정도인 175B SFT 모델을 기준으로 선택합니다. 또한, 우리는 라벨러들에게 각 응답의 전반적인 품질을 1-7 Likert 척도로 판단하도록 요청하고 각 모델 출력에 대한 다양한 메타데이터를 수집합니다(표 3 참조).

    공공 NLP 데이터셋에 대한 평가. 우리는 두 가지 유형의 공공 데이터셋에서 평가를 수행합니다: 언어 모델의 안전성, 특히 진실성, 독성, 편견을 포착하는 측면과 질문 응답, 독해, 요약과 같은 전통적인 NLP 작업에서의 제로샷 성능을 포착하는 측면입니다. 우리는 또한 RealToxicityPrompts 데이터셋(Gehman et al., 2020)에서 독성에 대한 인간 평가를 수행합니다. 우리는 모든 샘플링 기반 NLP 작업에서 우리 모델의 샘플을 공개합니다.


    4. 결과

    이 섹션에서는 1장에서 제기한 주장에 대한 실험적 증거를 제공합니다. 결과는 API 프롬프트 분포에 대한 결과, 공공 NLP 데이터셋에 대한 결과, 그리고 질적 결과의 세 부분으로 구분됩니다.

    4.1 API 분포에 대한 결과 라벨러들은 GPT-3 출력보다 InstructGPT 출력을 현저하게 선호합니다. 우리의 테스트 세트의 프롬프트에서, 라벨러들은 모델 크기에 관계없이 InstructGPT 출력을 현저하게 선호합니다. 이 결과는 그림 1에서 보여집니다. 우리는 GPT-3 출력이 가장 나쁜 성능을 보이며, 잘 만들어진 몇 개의 샷 프롬프트(GPT-3 (prompted))를 사용하면, 그 다음으로 감독 학습(SFT)을 통한 데모 훈련, 그리고 마지막으로 비교 데이터를 사용한 PPO 훈련을 통해 유의미한 단계별 개선을 얻을 수 있다는 것을 발견했습니다. PPO 동안 사전 훈련 혼합에 대한 업데이트를 추가하는 것은 라벨러 선호도에서 큰 변화를 초래하지 않습니다. 우리의 이익의 크기를 보여주기 위해: 직접 비교할 때, 175B InstructGPT 출력은 GPT-3 출력보다 85 ± 3%의 시간 동안, 몇 개의 샷 GPT-3보다 71 ± 4%의 시간 동안 선호됩니다.

    우리는 또한 API에서 GPT-3 모델에 제출된 프롬프트에서 평가할 때 우리의 결과가 크게 변하지 않는다는 것을 발견했습니다(그림 3 참조), 비록 우리의 PPO-ptx 모델은 더 큰 모델 크기에서 약간 더 나쁜 성능을 보입니다.

    그림 4에서는 라벨러들이 InstructGPT 출력을 여러 구체적인 축에서도 긍정적으로 평가하는 것을 보여줍니다. 구체적으로, GPT-3와 비교할 때, InstructGPT 출력은 고객 지원자 맥락에서 더 적절하며, 지시에서 정의된 명시적 제약(예: "2단락 이하로 답을 작성하십시오.")을 더 자주 따르며, 전혀 올바른 지시를 따르지 못할 가능성이 적고, 닫힌 도메인 작업에서 사실을 만들어내는(‘환각’) 빈도가 더 적습니다. 이 결과는 InstructGPT 모델이 GPT-3보다 더 신뢰할 수 있고 제어하기 쉽다는 것을 시사합니다. 우리는 우리의 API에서 다른 메타데이터 범주가 너무 드물게 발생하여 우리 모델 간에 통계적으로 유의미한 차이를 얻을 수 없다는 것을 발견했습니다.

    우리 모델은 훈련 데이터를 생성하지 않은 "보류 중" 라벨러의 선호도에 일반화됩니다. 보류 중 라벨러는 훈련 데이터를 생성하는데 사용된 노동자와 유사한 순위 선호도를 가집니다(그림 3 참조). 특히, 보류 중 노동자에 따르면, 모든 InstructGPT 모델은 여전히 GPT-3 기준을 크게 능가합니다. 따라서, 우리의 InstructGPT 모델은 단순히 훈련 라벨러의 선호도에 과적합되는 것이 아닙니다.

    이는 우리의 보상 모델의 일반화 능력에서 더 많은 증거를 보여줍니다. 우리는 라벨러를 5개 그룹으로 나누고, 5-겹 교차 검증을 사용하여 5개의 RM을 훈련했습니다(4개 그룹에서 훈련하고, 보류 중 그룹에서 평가). 이 RM은 보류 중 그룹 라벨러의 선호도를 예측하는데 69.6 ± 0.9%의 정확도를 보였으며, 이는 훈련 세트의 라벨러의 선호도를 예측하는 72.4 ± 0.4%의 정확도에서 약간 감소했습니다.

    공공 NLP 데이터셋은 우리 언어 모델이 사용되는 방식을 반영하지 않습니다. 그림 5에서, 우리는 175B GPT-3 기준에 대해 FLAN (Wei et al., 2021)과 T0 (Sanh et al., 2021) 데이터셋(부록 C 참조)에 미세 조정된 InstructGPT를 비교합니다. 이 모델들은 GPT-3보다 성능이 좋으며, 잘 선택된 프롬프트를 가진 GPT-3와 동등하고, 우리의 SFT 기준보다는 나쁩니다. 이는 이러한 데이터셋이 우리 API 프롬프트 분포에서 성능을 향상시키기에 충분히 다양하지 않음을 나타냅니다. 직접 비교에서, 우리의 175B InstructGPT 모델 출력은 FLAN 모델에 대해 78 ± 4%의 시간 동안, T0 모델에 대해 79 ± 4%의 시간 동안 선호되었습니다. 이 모델들의 Likert 점수는 그림 5에 나와 있습니다.

    우리는 InstructGPT 모델이 FLAN과 T0를 능가하는 두 가지 이유를 믿습니다. 첫째, 공공 NLP 데이터셋은 자동 메트릭으로 평가하기 쉬운 작업, 예를 들어 분류, 질문 응답, 그리고 어느 정도 요약 및 번역을 포착하도록 설계되었습니다. 그러나 분류 및 QA는 API 고객이 우리 언어 모델을 사용하는 것의 약 18%에 불과하며, 개방형 생성 및 아이디어 회의는 라벨러에 따라 우리 프롬프트 데이터셋의 약 57%를 차지합니다(표 1 참조). 둘째, 공공 NLP 데이터셋은 실제 사용자가 관심을 가질 수 있는 종류의 입력에서 매우 높은 다양성을 얻기 어려울 수 있습니다. 물론 NLP 데이터셋에 있는 작업은 우리가 언어 모델이 해결할 수 있기를 원하는 종류의 지시를 대표하지만, 가장 넓은 유형의 지시 따르기 모델은 두 유형의 데이터셋을 모두 결합할 것입니다.

    4.2 공공 NLP 데이터셋에 대한 결과 InstructGPT 모델은 GPT-3에 비해 진실성에서 개선을 보입니다. TruthfulQA 데이터셋에서의 인간 평가로 측정된 바에 따르면, 우리의 PPO 모델은 GPT-3에 비해 진실하고 유익한 출력을 생성하는 데 소규모이지만 유의미한 개선을 보입니다(그림 6 참조). 이 행동은 기본값입니다: 우리 모델은 진실성을 향상시키기 위해 특별히 지시받을 필요가 없습니다. 흥미롭게도 예외는 동일한 크기의 GPT-3 모델보다 약간 나쁜 성능을 보이는 1.3B PPO-ptx 모델입니다. GPT-3에 대해 적대적으로 선택되지 않은 프롬프트에서만 평가했을 때, 우리의 PPO 모델은 여전히 GPT-3보다 훨씬 더 진실하고 유익하며(절대적인 개선은 몇 퍼센트 포인트 감소함에도 불구하고), GPT-3보다 유의미하게 더 진실합니다.

Designed by Tistory.