논문

15. Improving Language Understanding by Generative Pre-Training

정일균 2024. 5. 6. 23:39

GPT 논문 따라가기... 수업시간에 다루는 내용이기도 해서 한번 제대로 읽어보기로 하고 읽는 중..

논문 읽다보면 논문 주제가 생각나겠지..?


NLU는 텍스트 함축, 질문 응답, 의미적 유사성 평가, 문서 분류 등 다양한 작업을 포함

대량의 비주석 텍스트 코퍼스는 풍부하지만, 이러한 특정 작업을 학습하기 위한 주석이 달린 데이터는 부족하여, 차별적으로 훈련된 모델이 적절히 수행되기 어렵움

다양한 비주석 텍스트 코퍼스에서 언어 모델의 생성적 사전 훈련을 통해 이러한 작업에서 큰 향상을 실현할 수 있음을 보여줌

Discriminative fine-tuning을 통해 각 특정 작업에 대해 효과적인 전환이 이루어지도록 하면서 모델 아키텍처의 변경을 최소화하기 위해 Task-aware input transformations을 사용하는 것이 이전 접근법과는 다름

Discriminative Fine-Tuning
Discriminative fine-tuning은 사전 훈련된 모델의 매개변수를 각각의 특정 NLP 작업에 맞추어 조정하는 과정입니다. 이 과정에서는 모델이 특정 작업의 데이터셋에 대해 추가적으로 훈련됩니다. 그러나 단순한 훈련과는 다르게, "discriminative fine-tuning"은 모델의 각 층에 대해 다른 학습률을 적용하여 미세 조정의 효과를 극대화합니다.

층별 학습률 차별화:
* 하위 층: 모델의 하위 층은 입력 데이터의 기본적인 언어 특징들을 포착하는 역할을 합니다. 이 층들은 일반적으로 범용적인 언어 이해를 담당하기 때문에, 비교적 낮은 학습률을 적용받아 사전 훈련 당시 학습된 일반적인 지식을 크게 변형시키지 않습니다.
* 상위 층: 상위 층은 특정 작업의 구체적인 요구사항에 민감하게 반응하여 더 높은 학습률을 적용받습니다. 이는 상위 층이 특정 작업에 직접적으로 관련된 패턴이나 특성을 학습해야 하기 때문입니다.

작업별 미세 조정:
각각의 NLP 작업—예를 들어, 기계 번역, 텍스트 요약, 감정 분석 등—은 서로 다른 언어적 특성과 요구사항을 가집니다. 따라서, 모델을 각 작업에 맞게 미세 조정할 때는 해당 작업의 특성을 고려하여 학습률과 최적화 전략을 조정합니다.
예를 들어, 번역 작업에서는 문장의 구조적인 이해가 중요하므로 상위 층의 학습률을 높여 빠르게 작업에 특화된 특성을 학습하게 할 수 있습니다. 반면, 요약 작업에서는 중요한 정보를 추출하는 능력이 중요하므로, 다른 방식의 미세 조정이 필요할 수 있습니다.

효과적인 전이 학습:
사전 훈련된 모델을 사용하면 많은 일반적인 언어 지식을 이미 학습하고 있기 때문에, 작업별 미세 조정을 통해 비교적 적은 데이터로도 높은 성능을 달성할 수 있습니다. Discriminative fine-tuning은 이러한 사전 훈련된 모델을 특정 작업에 맞게 최적화하여 성능을 극대화합니다.

Task-Aware Input Transformations
"Task-aware input transformations"은 입력 데이터를 모델이 더 잘 이해할 수 있는 형태로 변환하는 과정을 말합니다. 이는 특히 다양한 작업에 대해 동일한 모델 아키텍처를 사용할 때 중요합니다. 예를 들어, 질문 응답 시스템에서는 문장, 질문, 그리고 가능한 답변을 하나의 연속된 텍스트로 결합하여 입력으로 사용할 수 있습니다. 이러한 변환은 종종 특수한 구분자나 토큰을 사용하여 이루어지며, 모델이 각 요소를 구별하고 해당 작업에 맞게 정보를 처리하도록 돕습니다.
이러한 접근법의 핵심은 사전에 훈련된 모델의 아키텍처를 크게 변경하지 않으면서도, 특정 NLP 작업에 맞게 모델의 효율성과 성능을 최적화하는 데 있습니다. 이는 개발 시간과 리소스를 절약하고, 여러 다른 작업에 동일한 모델을 유연하게 적용할 수 있도록 해줍니다.

 


원시 텍스트로부터 효과적으로 학습하는 능력은 자연어 처리(NLP)에서 감독 학습에 대한 의존도를 줄이는 데 매우 중요합니다. 대부분의 딥러닝 방법은 상당한 양의 수동으로 레이블이 지정된 데이터를 요구하는데, 이는 주석이 부족한 많은 분야에서 그 적용 가능성을 제한합니다. 이러한 상황에서 레이블이 없는 데이터로부터 언어 정보를 활용할 수 있는 모델은 시간이 많이 걸리고 비용이 많이 드는 추가 주석 수집의 가치 있는 대안을 제공합니다. 더욱이 상당한 감독이 가능한 경우에도 비감독 방식으로 좋은 표현을 학습하는 것은 중요한 성능 향상을 제공할 수 있습니다. 이에 대한 가장 설득력 있는 증거는 다양한 NLP 작업에서 성능을 향상시키기 위해 사전 훈련된 단어 임베딩을 광범위하게 사용한 것입니다.

그러나 레이블이 없는 텍스트에서 단어 수준을 넘어서는 정보를 활용하는 것은 두 가지 주요 이유로 인해 어렵습니다. 첫째, 전이에 유용한 텍스트 표현을 학습하는데 가장 효과적인 최적화 목표는 무엇인지 명확하지 않습니다. 최근 연구는 언어 모델링, 기계 번역, 담화 일관성 등 다양한 목표를 검토하였으며, 각 방법은 다른 작업에서 서로를 능가했습니다. 둘째, 이러한 학습된 표현을 대상 작업에 효과적으로 전달하는 방법에 대한 합의가 없습니다. 기존 기술은 모델 아키텍처에 작업별 변경을 가하는 조합, 복잡한 학습 방식 사용, 보조 학습 목표 추가 등을 포함합니다. 이러한 불확실성은 언어 처리를 위한 효과적인 준감독 학습 접근법을 개발하기 어렵게 만들었습니다.

이 논문에서는 비감독 사전 훈련과 감독 미세 조정의 조합을 사용하는 언어 이해 작업을 위한 준감독 접근 방법을 탐구합니다. 우리의 목표는 적은 적응으로 다양한 작업에 전이할 수 있는 보편적인 표현을 학습하는 것입니다. 우리는 대규모의 레이블이 없는 텍스트 코퍼스와 수동으로 주석이 처리된 훈련 예시가 포함된 여러 데이터셋에 접근할 수 있다고 가정합니다. 우리의 설정은 이러한 대상 작업이 레이블이 없는 코퍼스와 동일한 도메인에 있을 필요는 없습니다. 우리는 두 단계의 훈련 절차를 사용합니다. 우선, 우리는 언어 모델링 목표를 사용하여 신경망 모델의 초기 매개변수를 학습합니다. 이후, 우리는 해당 감독 목표를 사용하여 이 매개변수를 대상 작업에 적응시킵니다.

모델 아키텍처로는 기계 번역, 문서 생성, 구문 분석 등 다양한 작업에서 강력한 성능을 보여준 Transformer를 사용합니다. 이 모델 선택은 재발 네트워크와 같은 대안들에 비해 텍스트의 장기 의존성을 처리하기 위한 더 구조화된 메모리를 제공하며, 다양한 작업에서 강력한 전달 성능을 결과로 합니다. 전달하는 동안, 우리는 단일 연속 토큰 시퀀스로 구조화된 텍스트 입력을 처리하는 순회 스타일 접근에서 파생된 작업별 입력 적응을 활용합니다. 우리의 실험에서 보여주듯이, 이러한 적응은 사전 훈련된 모델의 아키텍처를 최소한으로 변경하면서 효과적으로 미세 조정할 수 있게 해줍니다.

우리는 자연어 추론, 질문 응답, 의미적 유사성, 텍스트 분류의 네 가지 유형의 언어 이해 작업에서 접근 방식을 평가합니다. 우리의 일반적인 작업 불가지론적 모델은 각 작업에 특별히 맞춤화된 아키텍처를 사용하는 차별적으로 훈련된 모델들을 능가하여, 연구된 12개 작업 중 9개에서 기존 최고 성능을 상당히 개선합니다. 예를 들어, 우리는 상식 추론(Stories Cloze Test)에서 8.9%의 절대적인 향상을, 질문 응답(RACE)에서는 5.7%, 텍스트 함축(MultiNLI)에서는 1.5% 및 최근 도입된 GLUE 다작업 벤치마크에서 5.5%의 향상을 달성했습니다. 우리는 또한 사전 훈련된 모델의 네 가지 다른 설정에서의 제로-샷 행동을 분석하고, 이 모델이 하류 작업에 유용한 언어 지식을 습득한다는 것을 보여줍니다.


자연어 처리(NLP)를 위한 준감독 학습: 우리의 연구는 자연어를 위한 준감독 학습 분야에 속합니다. 이 패러다임은 시퀀스 라벨링[24, 33, 57] 또는 텍스트 분류[41, 70]와 같은 작업에 적용되며 상당한 관심을 끌고 있습니다. 초기 접근 방식은 레이블이 없는 데이터를 사용하여 단어 수준 또는 구문 수준의 통계를 계산하고, 이를 감독된 모델에서 특징으로 사용했습니다[33]. 지난 몇 년 동안 연구자들은 레이블이 없는 코퍼스에서 훈련된 단어 임베딩[11, 39, 42]을 사용하여 다양한 작업에서 성능을 향상시키는 이점을 보여주었습니다[8, 11, 26, 45]. 이러한 접근 방식은 주로 단어 수준의 정보를 전달하지만, 우리는 더 높은 수준의 의미론을 포착하고자 합니다.

최근 접근 방식은 레이블이 없는 데이터에서 단어 수준을 넘어서는 의미론을 학습하고 활용하는 것을 조사하고 있습니다. 레이블이 없는 코퍼스를 사용하여 훈련할 수 있는 구문 수준 또는 문장 수준의 임베딩은 다양한 대상 작업에 적합한 벡터 표현으로 텍스트를 인코딩하는 데 사용되었습니다[28, 32, 1, 36, 22, 12, 56, 31].

비감독 사전 훈련: 비감독 사전 훈련은 감독 학습 목표를 수정하는 대신 좋은 초기화 지점을 찾는 것을 목표로 하는 준감독 학습의 특별한 경우입니다. 초기 연구는 이미지 분류[20, 49, 63] 및 회귀 작업[3]에서 이 기술의 사용을 탐구했습니다. 이후 연구[15]는 사전 훈련이 규제 방식으로 작용하여 심층 신경망에서 더 나은 일반화를 가능하게 한다는 것을 보여주었습니다. 최근에는 이미지 분류[69], 음성 인식[68], 실체 모호성 해소[17], 기계 번역[48]과 같은 다양한 작업에서 심층 신경망을 훈련하는 데 도움이 되는 방법으로 사용되었습니다.

우리의 연구와 가장 밀접한 작업은 언어 모델링 목표를 사용하여 신경망을 사전 훈련하고 감독된 대상 작업에서 미세 조정하는 것입니다. Dai 등[13]과 Howard와 Ruder[21]는 이 방법을 따라 텍스트 분류를 개선합니다. 그러나 사전 훈련 단계는 일부 언어 정보를 포착하는 데 도움이 되지만, LSTM 모델의 사용은 그들의 예측 능력을 짧은 범위로 제한합니다. 반면에, 우리가 선택한 트랜스포머 네트워크는 우리의 실험에서 보여주듯이 더 긴 범위의 언어 구조를 포착할 수 있습니다. 또한, 자연어 추론, 단어 대치 검출, 스토리 완성을 포함한 더 넓은 범위의 작업에서 우리 모델의 효과를 보여줍니다. 다른 접근 방식[43, 44, 38]은 사전 훈련된 언어 또는 기계 번역 모델에서 숨겨진 표현을 감독된 모델 훈련 시 보조 특징으로 사용합니다. 이는 각각의 대상 작업에 대해 상당한 양의 새로운 매개변수를 필요로 하는 반면, 우리는 전송 중 모델 아키텍처의 최소한의 변경만을 요구합니다.

보조 훈련 목표 추가: 보조 비감독 훈련 목표를 추가하는 것은 준감독 학습의 다른 형태입니다. 초기 작업에서 Collobert와 Weston[10]은 POS 태깅, 청킹, 명명된 개체 인식, 언어 모델링과 같은 다양한 보조 NLP 작업을 사용하여 의미 역할 라벨링을 개선했습니다. 최근에는 Rei[50]가 그들의 대상 작업 목표에 보조 언어 모델링 목표를 추가하고 시퀀스 라벨링 작업에서 성능 향상을 보여주었습니다. 우리의 실험도 보조 목표를 사용하지만, 보여주듯이 비감독 사전 훈련은 이미 대상 작업에 관련된 여러 언어적 측면을 학습합니다.