[논문 리뷰] 37. Enhanced Facet Generation with LLM Editing

논문 2024. 9. 26. 15:34

관련된 논문 엄청 많아

정보 검색에서, 사용자 쿼리의 측면(의도)을 식별하는 것은 중요한 과제

검색 서비스가 사용자 쿼리의 다양한 측면을 인식할 수 있다면, 더 광범위한 검색 결과를 제공할 가능성이 존재

검색 엔진이 사용자가 입력한 검색어가 가지고 있을 수 있는 다양한 의미와 의도를 파악하는 것이 매우 중요하다는 뜻
이를 통해 검색 엔진은 사용자에게 더 풍부하고 다양한 검색 결과를 제공할 수 있음

왜 측면을 식별하는 것이 중요한가?
사용자들이 검색할 때, 입력하는 쿼리는 대부분 간단하고 구체적인 설명이 부족할 때가 많음

예를 들어, 사용자가 "apple"이라고 검색했을 때, 이 단어는 여러 가지 다른 의미를 가질 수 있음
이때 검색 시스템이 그 단어의 다양한 측면을 인식할 수 있다면, 사용자가 의도한 검색 결과 외에도 관련된 다양한 정보를 제공 가능

의도를 인식하지 못한다면, 검색 엔진은 사용자가 원하는 정보만 제한적으로 제공할 가능성이 높아짐
예시 1: "Apple"이라는 쿼리
Apple (회사): 애플이라는 테크 회사에 대한 정보.
Apple (과일): 사과라는 과일에 대한 정보.
Apple 제품: 아이폰, 맥북 같은 애플의 제품들.
Apple 역사: 애플 회사의 역사.
Apple 주식: 애플 회사의 주가 및 관련 주식 정보

위와 같이, "Apple"이라는 쿼리는 여러 가지 측면(facet)을 가질 수 있음
검색 엔진이 이러한 측면을 인식할 수 있다면, 다양한 의미에 맞춘 검색 결과를 제시할 수 있음

사용자가 특정 의미를 염두에 두지 않고 검색했을 때도, 검색 엔진은 다양한 측면을 보여주어 사용자가 의도하지 않았던 정보까지도 쉽게 접근할 수 있게 도움

검색 엔진이 의도를 식별하지 못할 때의 문제점
만약 검색 엔진이 사용자가 입력한 쿼리의 다양한 의도를 식별하지 못한다면, 사용자가 원하는 정보에 정확히 접근하지 못할 수 있음

예를 들어, "apple"을 검색했을 때 오직 애플 회사와 관련된 정보만 나오는 경우, 사용자가 "apple 과일"을 찾고자 했다면 필요한 정보를 쉽게 찾을 수 없게 됨

검색 엔진이 다양한 측면을 제시하는 것이 중요한 이유는 사용자 경험을 향상시키고, 보다 포괄적인 검색 결과를 제공하기 위해서

검색 서비스가 쿼리의 다양한 측면을 인식할 수 있다면, 더 광범위한 검색 결과를 제공할 수 있는 가능성
검색 엔진이 쿼리의 다양한 측면을 인식한다는 것은, 검색 엔진이 더 많은 의도나 의미를 고려해 사용자가 기대한 것 이상의 검색 결과를 제공할 수 있음을 의미

포괄적인 정보 제공: 사용자가 단일 쿼리만 입력해도 여러 방면에서 관련 있는 다양한 정보를 제공받을 수 있음
검색 경험 향상: 사용자가 구체적으로 표현하지 않은 의도나 관심사에 대해서도 검색 엔진이 자동으로 추천해주므로 검색 과정이 더 편리하고 직관적
의도 명확화: 검색 엔진이 사용자에게 다양한 의도를 보여주므로, 사용자가 처음에는 명확하지 않았던 자신의 의도를 더 구체화할 수 있게 됨

결론적으로, 사용자 쿼리의 의도를 인식한다는 것은 사용자가 검색한 내용이 가질 수 있는 여러 의미적 범주를 파악하고, 그에 따라 더 풍부하고 다각적인 검색 결과를 제공하는 것을 의미
이를 통해 사용자는 자신이 의도했던 정보뿐만 아니라, 다른 관련 정보도 쉽게 접할 수 있어 더 나은 검색 경험을 할 수 있음

기존 연구들은 검색 엔진을 통해 검색된 문서와 관련된 쿼리를 활용하여 의도 예측을 개선할 수 있음을 보여줌

그러나 검색 엔진이 모델의 일부로 작동할 때 이를 다른 응용 프로그램으로 확장하는 데에는 몇 가지 어려움이 존재함

1) 검색 엔진은 지속적으로 업데이트되므로 훈련 및 테스트 중에 추가 정보가 변경될 수 있어 성능이 저하될 수 있음

2) Google, bing 검색 엔진이 내부 문서를 검색할 수 없다는 점

따라서 회사 내부의 비공개 도메인에서 문서를 통합하기 위해 별도의 검색 시스템을 구축해야 함

본 연구에서는 검색 엔진 없이 쿼리만을 입력으로 하여 의도를 예측할 수 있는 프레임워크에 중점을 둔 두 가지 전략을 제안

첫 번째 전략은 SERP(검색 엔진 결과 페이지)를 예측하기 위한 다중 작업 학습

SERP를 소스 대신 타겟으로 활용함으로써 제안된 모델은 외부 모듈에 의존하지 않고 쿼리를 깊이 이해할 수 있음

두 번째 전략은 대형 언어 모델(LLM)과 소형 모델을 결합하여 측면을 향상시키는 것

소형 모델과 LLM을 개별적으로 사용하는 것보다 결합하여 전반적인 성능이 향상

검색 명확화는 오랫동안 정보 검색 분야에서 관심을 받아온 주제

사용자가 입력한 검색 쿼리가 모호하거나 불명확할 때, 그 의도를 더 명확하게 파악하거나 보완하기 위해 추가 정보를 제공하거나 질문을 제시하는 과정

이는 검색 엔진이나 정보 검색 시스템이 사용자가 실제로 찾고자 하는 정보를 더 잘 이해하고, 그에 맞는 결과를 제공하기 위한 중요한 기법

왜 검색 명확화가 필요한가?

사용자가 입력하는 검색어(쿼리)는 종종 모호하거나 구체적이지 않은 경우가 많음

이러한 경우 검색 엔진은 정확한 결과를 제공하기 어렵기 때문에, 사용자의 의도를 명확히 하는 추가적인 조치가 필요

검색 명확화는 이런 상황에서 검색 엔진이 사용자에게 더 나은 검색 경험을 제공하기 위한 방법

검색 명확화의 예시

다중 의미를 가진 쿼리:
- 예를 들어, 사용자가 "Apple"이라는 단어를 검색하면, "Apple"은 회사일 수도 있고 과일일 수도 있음
  이때 검색 엔진은 "Apple 회사에 대한 정보를 찾고 있습니까, 아니면 과일에 대한 정보를 찾고 있습니까?"와 같은 명확화 질문을 통해 사용자의 의도를 명확히 할 수 있음
불명확한 쿼리:
- 사용자가 "카메라"라는 단어만 입력했을 때, 이는 카메라의 구매, 사용법, 수리 정보, 또는 카메라 관련 기술 기사 등을 찾고자 하는 의도를 포함할 수 있음
  검색 엔진은 "카메라 구매, 사용법, 아니면 리뷰를 찾고 있습니까?"와 같은 명확화 질문을 통해 사용자의 구체적인 요구를 확인할 수 있음
정보가 부족한 쿼리:
- 예를 들어 "자동차"라는 단어만 입력하면, 너무 광범위한 주제가 될 수 있음
  이때 "자동차 구매, 수리, 리뷰, 또는 특정 브랜드를 찾고 있습니까?"와 같은 질문을 통해 검색 엔진이 사용자의 의도를 더 정확하게 파악하게 도와줌

검색 명확화 방법

자동 명확화 질문 생성: 검색 엔진이 모호한 쿼리나 다중 의미를 가진 쿼리를 입력받으면, 자동으로 명확화 질문을 생성하여 사용자에게 제시
예를 들어, "Apple"이라는 쿼리의 경우 "Apple 회사"와 "Apple 과일" 중 어떤 것을 찾는지 물어보는 방식
명확화 옵션 제공: 검색 엔진이 사용자에게 다양한 검색 옵션을 제시하는 방식
예를 들어, 사용자가 "Java"를 검색했을 때, 프로그래밍 언어와 커피에 관한 두 가지 옵션을 제공해 사용자가 원하는 방향으로 검색 결과를 좁힐 수 있음
관련 검색 제안: 사용자가 검색한 쿼리와 관련된 다양한 추천 쿼리를 보여주는 방식
이를 통해 사용자는 자신의 의도에 맞는 보다 구체적인 검색어로 결과를 얻을 수 있음

검색 명확화의 이점

검색 결과의 정확도 향상: 사용자의 의도를 명확히 하면, 검색 엔진은 더 관련성 높은 정보를 제공할 수 있음
이는 사용자가 원하는 정보에 더 빨리 접근할 수 있게 도와줍니다.
사용자 경험 개선: 검색 명확화는 사용자로 하여금 자신이 원하는 정보에 더 쉽게 접근하게 하고, 모호한 쿼리로 인한 불만을 줄여줌
더 풍부한 검색 결과 제공: 명확화된 쿼리를 통해 사용자는 자신이 처음에 의도하지 않았더라도 유용한 정보에 접근할 수 있는 기회를 얻게 됨

사용자는 검색 시스템에 다양한 하위 의도를 포함한 쿼리를 전송하며, 다양한 검색 결과를 기대

이러한 하위 의도는 ‘측면(facet)’이라고 불림

예를 들어, 사용자가 "warcraft"를 검색할 때 "warcraft 게임", "warcraft 영화", "warcraft 책", "warcraft 역사"와 같은 측면이 포함될 수 있음

이전 연구들은 쿼리로부터 측면을 생성하는 작업을 ‘측면 생성 작업으로 소개

검색 시스템이 사전에 쿼리의 측면을 예측할 수 있다면 더 다양한 고품질의 검색 결과를 제공할 수 있음

이전 연구들은 검색 엔진 결과 페이지(SERP)를 활용하여 다양한 쿼리 측면을 생성하는 모델의 성능을 개선할 수 있음을 입증
SERP에서 가장 일반적으로 사용되는 정보는 검색된 문서의 스니펫

쿼리와 문서 스니펫을 함께 입력으로 구성하면 모델이 더 풍부한 정보를 얻을 수 있어 측면 예측 성능이 향상

하지만 이러한 방법을 상업화하는 데에는 몇 가지 어려움이 존재

첫째, Bing이나 Google과 같은 공공 검색 엔진은 지속적으로 업데이트

검색 알고리즘은 시간이 지남에 따라 변경되며, 사용자 문서도 지속적으로 업데이트, 외부 연구자들은 사설 검색 알고리즘의 원리와 변화를 파악할 수 없음

따라서 검색 엔진이 모델의 일부로 사용된다면, 훈련과 테스트 사이에 SERP가 변동되어 성능 저하가 발생할 수 있음

두 번째 문제는 공공 검색 엔진이 공공 문서만 검색한다는 점
내부 서비스에서 쿼리 측면을 생성하려면 목표하는 측면 분포가 달라집니다. 그러나 내부 문서를 활용하기 위한 별도의 검색 엔진을 구축하는 데는 상당한 비용이 듭니다. 마지막으로, SERP는 외부 통신이 필수적입니다. 따라서 기존 방법들은 온프레미스 서비스를 고려하는 고객에게는 어려운 방법입니다.

테스트 시 쿼리만을 입력으로 사용하여 검색 엔진에 의존하지 않는 프레임워크에 중점

SERP 없이 쿼리 측면을 예측할 수 있는 두 가지 전략을 제안

1) 다중 작업 학습으로, SERP를 훈련에서만 사용하고 테스트에서는 사용하지 않음

단순히 문서를 연결하여 훈련하는 방식은 테스트 시 비효율적이므로(섹션 4 참조), SERP를 목표로 하여 모델 성능을 향상시키는 방법을 고려

2) LLM을 사용하여 측면을 수정하는 것

최근 LLM은 InstructGPT 이후로 다양한 작업에서 높은 성능을 보여왔음

그러나 단순히 LLM에게 쿼리 측면을 생성하도록 지시하면 부정확한 측면이 생성될 수 있음

LLM이 데이터셋의 분포를 알지 못하기 때문에 목표에 맞는 측면을 예측하기 어려움

미세 조정된 소형 모델이 예측한 측면을 LLM으로 수정함으로써 성능을 개선

이는 소형 모델이 학습 데이터셋을 통해 LLM에게 데이터셋의 분포를 알려줌으로써 LLM이 더 정확한 측면을 생성하도록 돕는 효과

다시 말해, LLM 수정은 엔드 투 엔드 생성보다 더 효과적이며, 미세 조정된 소형 모델이 목표 측면에 대한 중간 결과를 생성하기 때문

또한, LLM 수정이 기존 모델에서도 효과적으로 작동함을 입증

과제 정의

이 논문은 오직 쿼리만을 기반으로 측면을 생성하는 것에 초점

훈련

\( T_{\text{train}} = \{ (q_1, D_1, R_1, F_1), \dots, (q_N, D_N, R_N, F_N) \} \)

\( q_i \) : 사용자가 입력한 쿼리를 의미합니다. 예를 들어, "Python"이라는 단어

\( D_i = \{ d_{i1}, \dots, d_{im} \} \)는 \( m \)개의 검색된 문서의 스니펫으로 구성, 검색 엔진이 사용자 쿼리에 대해 반환한 여러개의 문서들

-> 예시 : 사용자가 "Python"을 검색했을 때, 프로그래밍 언어 Python에 대한 문서와 파이썬 동물에 대한 문서들이 포함될 수 있음

\( R_i = \{ r_{i1}, \dots, r_{it} \} \)는 쿼리 로그에서 얻은 \( t \)개의 관련 쿼리를 포함, 사용자가 입력한 쿼리와 관련된 다른 쿼리 의미

-> 예시 : "Python"이라는 쿼리에 대해, 관련된 쿼리로 "Python programming", "Python tutorials", "Python snake" 등이 있을 수 있음

\( F_i = \{ f_{i1}, \dots, f_{ik} \} \)는 \( k \)개의 목표 측면, 사용자의 쿼리와 관련된 다양한 의미나 의도를 나타내며, 이 예시에서는 프로그래밍 언어 Python과 파이썬 동물이 포함될 수 있음

테스트

\( T_{\text{test}} = \{ (q_1, F_1), \dots, (q_M, F_M) \} \)에서 우리는 \( q_i \)로부터 \( F_i \)를 생성

훈련과는 달리, 테스트에서는 \( D \)와 \( R \)를 사용할 수 없음

방법

이전 방법들은 쿼리를 입력으로 하여 SERP를 사용하는 모델 학습 프레임워크

이전 방법과 유사하게, 표 1의 모델은 BART-base를 기반으로 쿼리와 문서를 입력받아 측면을 생성하도록 미세 조정

미세 조정된 모델의 성능은 훈련과 테스트에서의 입력 구성에 따라 달라짐

훈련에 사용된 SERP가 테스트에 사용되지 않는 경우 성능이 크게 저하

따라서 훈련과 테스트에서 동일한 입력 구성이 유지되는 상황이 가장 이상적인 시나리오

테스트 시 SERP가 사용되지 않는 시나리오를 가정

따라서 우리는 모델 입력이 아닌 타겟에 정보를 포함시키는 다중 작업 학습을 활용

또한, LLM과 소형 모델을 결합하여 방대한 지식을 활용

"소형 모델"은 단일 GPU에서 학습 가능한 모델을 의미하며, 우리 실험에서는 BART-base가 해당

"LLM"은 7B 이상의 크기를 가진 모델로, 사전 학습과 명령 조정을 통해 다양한 작업에 사용될 수 있음

다중 작업 학습
입력은 쿼리에 특수 토큰을 앞에 추가하여 구성되며, 이를 통해 생성할 타겟을 제어할 수 있음

특수 토큰에는 [facet], [document], [related]가 있으며, 각각 측면, 문서의 스니펫, 관련 쿼리를 생성하는 데 사용

입력은 다음과 같이 구성

\[
i_s = \text{concat}([s], \text{query})
\]
(1)

여기서 \( s \in \{\text{facet}, \text{document}, \text{related}\} \)

타겟 출력은 각 문장이 ","로 구분되어 다음과 같이 구성

\[
o_s = "s_1, s_2, \dots"
\]
(2)

여기서 \( s_i \)는 \( s \)에 해당하는 타겟 문장
손실은 다음과 같이 교차 엔트로피로 계산

\[
L_s = \frac{1}{N} \sum_{i=1}^{N} \text{CE}(f(i_s), o_s)
\]
(3)

다중 작업 학습에서 사용된 타겟에 기반한 손실들의 합이 최종 손실
훈련된 모델은 측면뿐만 아니라 문서 스니펫이나 관련 쿼리도 생성할 수 있음
모델의 추가적인 기능은 쿼리로부터 더 정확한 측면을 생성하는 데 도움

LLM 수정

다중 작업 학습은 검색 엔진에 의존하지 않고 소형 모델의 성능을 향상

하지만 미세 조정된 모델은 여전히 테스트 시 외부의 풍부한 정보를 활용할 수 없다는 한계가 있음

따라서 우리는 대규모 코퍼스에서 얻은 방대한 지식을 가진 LLM을 활용하여 이 한계를 보완하는 전략을 제안

LLM 수정은 미세 조정된 소형 모델이 생성한 측면을 정제하는 기술
LLM이 쿼리에 해당하는 목표 측면을 생성하도록 지시될 때, 이는 일반적인 생성 능력에 의존

이러한 생성 능력은 방대한 사전 학습 코퍼스와 명령 조정으로부터 나옴

따라서 단순히 몇 개의 쿼리와 측면 쌍을 시연하여 LLM에게 목표 측면의 분포를 전달하는 것은 어려움

반면, 미세 조정된 소형 모델은 훈련 데이터셋에서 학습되었기 때문에 생성될 측면의 분포를 알고 있음

따라서 우리는 소형 모델이 예측한 측면을 LLM에게 제공하여 개선된 측면을 다시 생성하도록 함

소형 모델의 도움을 받아 LLM은 목표 측면에 더 가까운 상태에서 수정된 측면 식별을 수행할 수 있어 작업이 더 쉬워짐

즉, 미세 조정된 소형 모델의 지식을 활용하는 방법

수정 프롬프트

표 2는 소형 모델의 결과를 LLM이 수정하도록 하는 프롬프트

LLM에게 두 개의 시연을 제공(예측된 측면 => 라벨된 측면).

LLM이 소형 모델을 결합하지 않은 경우, 우리는 LLM에게 몇 차례나 제로 샷 시연을 통해 측면을 생성하도록 지시

E(zero)에서는 데이터셋 분포에 대한 정보 없이 측면을 생성하도록 지시되며, E(few)에서는 표준 프롬프트를 통해 제한된 정보를 얻을 수 있음

**예시:**
```
### 사용자:
‘{example query1}’에 대한 예측된 측면은 ‘{predicted facets1}’입니다. 하지만 올바른 측면은 ‘{label facets1}’입니다.
‘{example query2}’에 대한 예측된 측면은 ‘{predicted facets2}’입니다. 하지만 올바른 측면은 ‘{label facets2}’입니다.
위 예시와 같이, 예측된 측면을 수정하세요.
‘{input query}’에 대한 예측된 측면은 ‘{predicted facets}’입니다. 올바른 측면은 무엇입니까?
```

실험

BART-base를 소형 모델로 사용

ChatGPT(OpenAI, 2022)나 GPT4는 사설 LLM이며 비용 문제가 있음

또한 OpenAI의 모델은 지속적으로 업데이트되기 때문에 결과를 재현하기 어려움

따라서 우리는 공개 파라미터를 가진 오픈 소스 LLM을 사용

실험 당시, 우리는 LLM 리더보드에서 높은 순위를 기록한 UP 30B (Upstage, 2023)를 사용

데이터셋

MIMICS 데이터셋은 검색 명확화나 측면 생성에서 널리 사용

MIMICS는 Bing 검색 엔진에서 수집되었으며 세 가지 하위 데이터셋으로 구성

이전 연구들을 따라 MIMICS-Click을 훈련 데이터셋으로, MIMICS-Manual을 테스트 데이터셋으로 사용

SERP는 공개 데이터로 사용

평가 지표

자동 평가

우리는 Hashemi et al., 2021에서 제안된 자동 평가 지표를 따랐습니다. Term Overlap은 생성된 측면과 실제 측면 간의 용어 겹침을 나타냅니다. Exact Match는 생성된 측면이 실제 측면과 동일한지를 나타냅니다. Set BLEU-mean은 각 측면 문장의 1-그램, 2-그램, 3-그램, 4-그램 점수의 평균을 나타냅니다. Set BERTScore(Zhang* et al., 2020)는 RoBERTa-large(Liu et al., 2019)를 사용하여 각 측면 문장의 유사성을 계산합니다. 직관적인 분석을 위해 각 F1 점수나 평균 점수와 같은 단일 점수를 사용합니다. 평가 스크립트는 Samarinas et al., 2022에서 제공됩니다.

5.2.2 LLM 기반 평가

자동 평가만으로는 최고의 모델을 선택하기 어렵습니다. 자동 평가는 네 가지 지표를 가지므로, 좋은 모델은 지표에 따라 달라집니다. 이전 연구들(Chiang and Lee, 2023; Liu et al., 2023)은 LLM 평가자가 다양한 자연어 생성(NLG) 작업에서 좋은 평가자가 될 수 있음을 소개했습니다. LLM 평가자는 인간 평가자와 높은 상관관계를 보이며, 기존 지표(BLEU, ROUGE, METEOR)보다 더 신뢰할 수 있는 결과를 보여줍니다. 또한 LLM 평가 결과는 높은 재현성을 가지고 있으며, 이전 테스트 샘플에 영향을 받지 않습니다. LLM 평가자는 승패 방식이나 점수를 계산하는 방식으로 다양하게 활용될 수 있습니다. Kocmi and Federmann, 2023은 번역 작업에서 점수 계산 방식을 도입했지만, 점수 분포가 한쪽으로 치우치는 단점이 있습니다. 우리는 두 모델 간의 우월성을 판단하기만 하면 되기 때문에, 승패 방식을 사용합니다. 이러한 결과에서 영감을 받아, 우리는 LLM 중 최고의 성능을 보이는 gemini-pro (Team et al., 2023)와 GPT4 (OpenAI, 2023)를 사용하여 평가를 시도합니다.

표 4는 모델 평가 프롬프트를 보여줍니다. 우리는 모델 A와 B의 예측된 측면을 LLM에 제공하고 어느 것이 더 나은지 물었습니다. 이에 대해 LLM은 A 또는 B로 응답합니다. 그러나 LLM은 생성형 모델이기 때문에 종종 다른 응답 형식을 가집니다. 이러한 파싱 문제로 인한 정답 확인 실패 위험을 최소화하기 위해, 온도를 0.1로 설정하고, top_p를 1로 설정했습니다. 그럼에도 불구하고 다른 형식으로 응답한 샘플은 평가에서 제외됩니다.

5.3 결과 및 논의

표 3은 우리의 전략에 대한 실험 결과를 보여줍니다. F 모델은 측면 생성만을 위해 미세 조정된 모델입니다. E 모델은 소형 모델 없이 쿼리와 몇 차례(two-shot) 또는 제로 샷 시연을 제공하여 LLM이 측면을 생성하도록 한 결과입니다. +M은 다중 작업 학습을 나타내며, 모델은 측면 생성 외에도 관련 쿼리(R)나 문서의 스니펫(D)을 생성하도록 훈련됩니다. +E는 소형 모델의 결과에 대해 LLM 수정을 수행한 것을 나타냅니다. 생성된 측면의 몇 가지 예시와 통계는 부록 B에 소개됩니다.

다중 작업 학습은 테스트 시 쿼리만 있을 때도 성능을 향상시킵니다. FR+M과 FD+M은 모두 F 모델보다 네 가지 지표에서 더 나은 성능을 보였습니다. 소형 모델이 측면뿐만 아니라 검색된 문서나 관련 쿼리도 추론할 수 있는 능력이 향상되어 쿼리에 대한 더 나은 이해를 이끌어냅니다. 모든 자동 지표를 고려했을 때, FD+M은 FR+M보다 약간 우수했습니다. 그 결과, 문서 스니펫이 소형 모델에게 관련 쿼리보다 더 효과적임을 확인했습니다.

LLM 수정은 소형 모델이 생성한 측면을 향상시킵니다. FD+M+E는 Term Overlap에서 FD+M보다 성능이 약간 저하되었지만, 다른 세 가지 지표에서는 성능이 향상되었습니다. 전반적으로 FD+M+E는 FD+M보다 더 우수합니다. FD+M+E는 모든 측면에서 E(few)보다 더 우수한 성능을 발휘하며, 이는 소형 모델이 생성한 측면이 목표 측면 분포에 기여한다는 것을 증명합니다. E(few)는 몇 차례 시연을 통해 데이터셋의 분포를 in-context learning으로 얻지만, 매우 제한된 정보입니다. E(zero)는 데이터셋의 분포를 전혀 알지 못하기 때문에 성능이 낮습니다. LLM이 사전 정보 없이 생성한 측면은 목표 분포와 일치하기 어렵습니다. 다시 말해, 소형 모델과 LLM을 결합하는 방법이 단순히 미세 조정이나 일반적인 프롬프트보다 더 효과적임을 증명합니다. 부록 C에서는 LLM 크기와 상관없이 LLM 수정이 효과적임을 보여줍니다.

5.3.1 기존 방법과의 비교

표 5는 우리의 모델과 기존 방법의 성능을 비교한 결과를 보여줍니다. 비교 모델에 대한 설명은 섹션 2에 있습니다. FD+M+E는 LLM 수정을 결합하지 않은 이전 모델 중에서 Set BLEU-mean과 Set BERTScore에서 두 번째로 높은 성능을 보였습니다. 이는 FD+M+E가 SERP 없이 QD 테스트 유형에서 최고 성능을 보이는 FG보다 더 의미 있는 측면을 생성한다는 것을 의미합니다. SR은 문서 스니펫 외에도 구조화된 정보(상위어와 HTML)를 활용하여 성능을 향상시켰지만, SERP에 더 의존적입니다. SR의 결과를 통해 다중 작업 학습에서 구조화된 정보를 활용하면 향후 성능 향상이 기대된다는 것을 알 수 있습니다.

5.3.2 LLM 기반 평가 결과

표 6은 FD+M+E와 다른 모델 간의 비교 결과를 보여줍니다. 우리는 FD+M, FG(QD/QD), SR을 비교 모델로 선택했습니다. 셀에 있는 숫자는 FD+M+E가 다른 모델과의 비교에서 이긴 비율을 나타냅니다. 예를 들어, GPT4는 FD+M+E가 SR보다 63.86%의 테스트 데이터에서 더 나은 성능을 보인다고 결정했습니다. 두 LLM 모두 FD+M+E가 다른 세 모델보다 더 나은 성능을 보였다고 판단했습니다. 이러한 결과는 FD+M+E가 SERP를 사용하는 기존 방법보다 더 효과적인 방법임을 입증합니다. 다시 말해, LLM 기반 평가 관점에서 FD+M+E는 이전 SoTA(State of the Art)보다 더 나은 성능을 보였습니다. 특히 FD+M과 비교한 더 높은 승률은 LLM 수정이 중요한 요소임을 나타냅니다. LLM 평가자가 전통적인 지표보다 인간 평가자와 더 관련이 있는 것으로 알려져 있기 때문에, 우리의 방법은 SERP를 사용하지 않고도 최첨단 성능을 달성한 것으로 간주됩니다.

5.3.3 기존 방법에 LLM 수정 결합

우리는 SERP를 입력으로 사용하는 이전 모델에 LLM 수정을 적용했습니다. 표 5는 LLM 수정의 효과가 모델 성능에 따라 달라짐을 보여줍니다. 표 3과 유사하게, LLM 수정을 통해 전반적인 Set BLEU-mean과 Set BERTScore 성능이 향상되는 경향이 있습니다. 그러나 LLM 수정은 Term Overlap 성능을 저하시킬 수 있으며, Exact Match 성능은 모델에 따라 달라집니다. LLM 수정은 전반적으로 낮은 성능을 보이는 EFC와 같은 모델의 성능을 크게 향상시킵니다. 우리는 LLM 수정이 소형 모델에 관계없이 의미론적 측면을 재생성하는 데 효과적인 기술임을 입증합니다.

결론

제안된 방법은 쿼리만을 사용하여 측면을 생성함으로써 검색 엔진에 대한 의존성을 제거합니다. SERP를 입력으로 사용할 수 없는 한계를 해결하기 위해, 우리는 다중 작업 학습과 LLM 수정을 포함한 두 가지 전략을 제안합니다. 다중 작업 학습은 소형 모델이 쿼리를 더 잘 이해할 수 있도록 돕습니다. LLM은 소형 모델로부터 사전 정보를 받아 개선된 측면을 생성합니다. SERP 없이도 FD+M+E는 자동 평가에서 FG와 유사한 성능을 보였으며, LLM 기반 평가에서는 최고의 성능을 달성했습니다. LLM 수정은 소형 모델과 LLM을 각각 사용하는 대신 효과적으로 결합하여 다양한 NLP 작업에서 사용할 수 있는 방법입니다. 따라서 우리의 방법은 다양한 NLP 작업으로 확장될 수 있습니다.

'논문' 카테고리의 다른 글

[논문 리뷰] 39. A Survey of Quantization Methods for Efficient Neural Network Inference (2)	2024.11.15
[논문 리뷰] 38. GPTQ: ACCURATE POST-TRAINING QUANTIZATION FOR GENERATIVE PRE-TRAINED TRANSFORMERS (2)	2024.11.13
[논문 리뷰] 36. REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS (0)	2024.09.21
[논문리뷰] 35. Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework (1)	2024.09.20
[논문 리뷰] 34. SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS (3)	2024.09.18

ABOUT ME