[논문 리뷰] 41. RouteLLM: Learning to Route LLMs with Preference Data

논문

[논문 리뷰] 41. RouteLLM: Learning to Route LLMs with Preference Data

정일균 2024. 12. 2. 10:18

대규모 언어 모델(LLMs)은 다양한 태스크에서 인상적인 능력을 보여주지만, 어떤 모델을 사용할지 선택하는 과정에서는 성능과 비용 간의 트레이드오프가 발생

더 강력한 모델은 효과적이지만 비용이 높고, 반면에 성능이 낮은 모델은 더 비용 효율적입니다.

이 딜레마를 해결하기 위해, 추론 중에 더 강력한 모델과 더 약한 모델을 동적으로 선택하여 비용과 응답 품질 간의 균형을 최적화할 수 있는 여러 효율적인 라우터(router) 모델을 제안

이러한 라우터를 학습시키기 위해 인간 선호 데이터와 데이터 증강(data augmentation) 기술을 활용하는 학습 프레임워크를 개발

널리 알려진 벤치마크에 대한 평가 결과, 접근 방식은 응답 품질을 저하시키지 않으면서 비용을 일부 경우 2배 이상 줄일 수 있음을 확인

더욱이, 라우터 모델은 뛰어난 전이 학습(transfer learning) 능력을 보여주었으며, 테스트 시 강력한 모델과 약한 모델이 변경되더라도 성능을 유지

이는 LLM 배포에서 비용 효율적이면서도 높은 성능을 제공할 수 있는 솔루션으로서 이 라우터의 가능성을 강조

모든 사용자 요청을 가장 강력한 모델로 라우팅하면 높은 품질의 결과를 보장하지만 비용이 매우 높음

반면, 더 작은 모델로 라우팅하면 비용은 최대 50배 이상 절감될 수 있지만(e.g., Llama-3-70b vs. GPT-4, Claude-3 Haiku vs. Opus1), 복잡한 요청에 대한 응답 품질이 저하될 수 있음

이 문제를 해결하기 위해, LLM 라우팅(LLM Routing)이라는 유망한 솔루션을 제안

사용자 요청은 먼저 라우터 모델에 의해 처리된 후, 적합한 LLM으로 라우팅

이를 통해 간단한 요청은 더 작은 모델로, 복잡한 요청은 더 큰 모델로 전달함으로써 응답 품질을 최적화하면서 비용을 최소화

비용 목표 내에서 최대 품질을 달성하거나 품질 목표 내에서 비용을 최소화하는 최적의 LLM 라우팅 문제는 해결하기 어려운 도전 과제

견고한 라우터 모델은 입력된 요청의 의도, 복잡성, 도메인을 추론할 수 있어야 하며, 후보 모델들의 능력을 이해하여 가장 적합한 모델로 요청을 라우팅해야 함

또한, 라우터 모델은 경제적이고 빠르며, 지속적으로 발전하는 모델 환경에 적응할 수 있어야 함

본 연구에서는 LLM 간 쿼리 라우팅을 위한 체계적인 프레임워크를 제안

강력한 모델과 약한 모델 간의 라우팅을 학습하며(Figure 1 참조), 목표는 간단한 쿼리를 약한 모델로, 더 복잡한 쿼리를 강력한 모델로 라우팅하여 비용을 최소화하면서 특정 성능 목표(예: 강력한 모델 성능의 90%)를 달성하는 것

인간 선호 데이터와 데이터 증강 기법을 활용하여 라우터 시스템을 학습시키는 프레임워크를 개발

이를 널리 알려진 벤치마크(MMLU, MT Bench)에서 평가한 결과, 응답 품질을 크게 손상시키지 않으면서 비용을 2배 이상 절감할 수 있음을 입증

요약하면, 본 연구는 다음과 같은 기여를 합니다:

비용과 응답 품질 간의 트레이드오프를 탐구하기 위해 LLM 라우팅 문제를 정의
인간 선호 데이터와 증강 기법을 기반으로 한 라우터 학습 프레임워크를 제안하여 널리 사용되는 벤치마크에서 비용을 2배 이상 절감
라우터 학습에 사용된 코드와 선호 데이터를 공개

여러 최근 연구는 LLM 배포에서 비용과 성능 간의 트레이드오프를 최적화하는 방법을 탐구했습니다. 예를 들어:

LLM-BLENDER 는 여러 LLM을 호출하여 가장 좋은 응답을 선택하는 앙상블 프레임워크를 사용
Frugal-GPT 는 신뢰할 수 있는 응답이 나올 때까지 LLM을 순차적으로 쿼리하는 LLM 캐스케이드(cascade)를 활용
AutoMix 는 작은 모델이 자신의 응답을 자체 검증한 후, 필요하면 더 큰 모델로 라우팅하는 방식을 사용

그러나 이러한 접근법은 여러 LLM 쿼리에 의존하는 반면, 우리의 접근법은 각 쿼리를 단일 LLM으로 라우팅합니다. 또한:

FrugalML은 일반적인 LLM 능력보다는 알려진 레이블이 있는 예측 서비스에 초점
Hybrid-LLM은 BARTScore를 사용하여 생성된 선호 레이블, 단일 BERT 기반 라우터 아키텍처, 그리고 도메인 내 일반화 평가로 제한

반면, 본 연구는 Chatbot Arena에서 수집한 인간 선호 레이블을 활용하며, 다양한 라우터 아키텍처를 탐구하고, 데이터셋 증강이 모든 라우터 아키텍처에서 성능을 크게 향상시킨다는 점을 보여줌.

또한, 다수의 공개 벤치마크에서 도메인 외 일반화(out-of-domain generalization)를 평가 대상으로...

2. LLM Routing

2.1 Problem Formulation
다양한 $ N $개의 LLM 모델 집합 $ M = \{M_1, \dots, M_N\} $을 고려

각 모델 $ M_i : Q \to A $는 쿼리를 응답으로 매핑하는 함수

라우팅 함수 $ R : Q \times M^N \to \{1, \dots, N\} $는 $ q \in Q $를 입력으로 받아, $ q $를 처리할 모델을 선택하는 $ N $-클래스 분류기

최종 응답은 다음과 같이 표현:
\[
a = M_{R(q)}(q)
\]
라우팅의 과제는 응답 품질을 높이는 것과 비용을 줄이는 것 사이에서 최적의 균형을 달성하는 것

선호 데이터 $ D_{\text{pref}} $를 다음과 같이 사용할 수 있다고 가정

\[
D_{\text{pref}} = \{(q, l_{i,j}) \,|\, q \in Q, \, i, j \in N, \, l_{i,j} \in L\}
\]
여기서:
- $ q $: 쿼리,
- $ l_{i,j} $: 모델 $ M_i $와 $ M_j $의 $ q $에 대한 품질 비교 결과를 나타내는 레이블로, $ L = \{\text{win}_{M_i}, \text{tie}, \text{win}_{M_j}\} $의 값을 가짐.

Reward Modeling과 Routing의 차이점을 구분하는 것이 중요
- Reward Modeling은 LLM이 응답을 생성한 후 품질을 평가
- Routing은 응답을 보기 전에 적절한 모델을 선택해야 하므로, 질문의 복잡성과 가용 모델의 강점 및 약점에 대한 깊은 이해가 필요

Routing대상 모델
본 연구에서는 두 가지 모델 클래스 간의 라우팅에 초점
1. 강력한 모델 ($ M_{\text{strong}} $):
   - 높은 품질의 응답을 생성할 수 있지만, 비용이 많이 듭니다.
   - 예: GPT-4와 같은 고급 폐쇄형 모델.
2. 약한 모델 ($ M_{\text{weak}} $):
   - 품질은 낮지만 비용이 적습니다.
   - 예: Mixtral-8x7B.

이러한 이진 라우팅 문제는 품질과 비용 간의 균형을 맞추려는 LLM 애플리케이션에서 자주 발생

또한, 이 문제를 해결하는 것은 일반적인 $ N $-방향 라우팅 문제를 해결하기 위한 기반을 형성

이진 라우팅 함수 정의
선호 데이터를 사용하여 $ M_{\text{weak}} $과 $ M_{\text{strong}} $ 사이의 이진 라우팅 함수 $ R_{\text{bin}}^\alpha : Q \to \{0, 1\} $을 학습하기 위한 체계적인 프레임워크를 제시

이를 위해 $ R_{\text{bin}}^\alpha $를 다음 두 가지 구성 요소로 정의
1. Win Prediction Model
- 강력한 모델 $ M_{\text{strong}} $의 승리 확률 $ P_\theta (\text{win}_{M_{\text{strong}}} \,|\, q) $을 예측
- 이 확률은 두 모델 클래스의 승리/패배 확률을 의미

- 선호 데이터에 대해 maximum likelihood를 사용하여 학습
   \[
   \max_\theta \sum_{(q, l_{i,j}) \in D_{\text{pref}}} \log P_\theta (l_{i,j} \,|\, q)
   \]
   - 이 확률을 학습함으로써 다양한 쿼리 유형에 대해 두 모델 클래스의 강점과 약점을 포착할 수 있습니다.

2. Cost Threshold $ \alpha \in [0, 1] $
   - 승리 확률을 약한 모델과 강력한 모델 간 라우팅 결정으로 변환합니다. 쿼리 $ q $에 대한 라우팅 결정은 다음과 같이 정의됩니다:
   \[
   R_{\text{bin}}^\alpha(q) =
   \begin{cases}
   0 \quad & \text{(즉, $ M_{\text{weak}} $) if } P(\text{win}_{M_{\text{j}}} \,|\, q) < \alpha \\
   1 \quad & \text{(즉, $ M_{\text{strong}} $) otherwise.}
   \end{cases}
   \]
   - 임계값 $ \alpha $는 품질/비용 트레이드오프를 제어

높은 $ \alpha $ 값은 더 엄격한 비용 제한을 부과하여 비용을 줄이는 대신 품질 저하를 초래할 수 있음

라우터의 최종 응답
라우터의 최종 응답은 다음과 같이 표현
\[
M_{R_{\text{bin}}^\alpha(q)}(q)
\]
이는 라우터의 결정에 따라 약한 모델 또는 강력한 모델 중 하나에서 생성된 응답을 나타냄

2.2 Metrics
LLM 라우팅 문제에서 비용과 품질 간의 트레이드오프를 측정하는 평가 지표를 정의

먼저, 주어진 $ R_{\text{bin}}^\alpha $의 품질과 비용 효율성을 독립적으로 평가하는 지표를 정의한 후, 실험 평가에서 사용하는 두 가지 복합 지표를 소개

Cost Efficiency
비용 효율성을 평가하기 위해 강력한 모델에 대한 호출 비율을 계산
\[
c(R_{\text{bin}}^\alpha) = \frac{1}{|Q|} \sum_{q \in Q} \mathbb{I} \{ R_{\text{bin}}^\alpha(q) = 1 \},
\]
여기서 $ M_{\text{strong}} $ 모델은 $ M_{\text{weak}} $ 모델에 비해 상당히 높은 비용을 초래합니다.

Quality
품질을 평가하기 위해 평가 데이터셋 $ Q $에서 평균 응답 품질을 측정
\[
r(R_{\text{bin}}^\alpha) = \frac{1}{|Q|} \sum_{q \in Q} \delta(M_{R_{\text{bin}}^\alpha(q)}(q)),
\]

여기서 $ \delta(M_{R_{\text{bin}}^\alpha(q)}(q)) $는 쿼리 $ q $에 대한 라우터 응답의 수치 점수

이 점수는 사전 정의된 지표(예: MMLU 데이터셋에서 응답의 정확도를 측정하는 지표)의 결과일 수 있으며, 또는 1~5 혹은 1~10과 같은 수치 레이블로, 높은 값이 더 나은 품질을 의미

라우터의 성능: 성능 격차 회복(Performance Gap Recovered, PGR)
$ R_{\text{bin}}^\alpha $의 성능은 약한 모델과 강력한 모델의 성능 사이에 위치

따라서 라우터의 성능을 두 모델 간의 성능 격차에 상대적으로 정량화

성능 격차 회복(PGR)은 다음과 같이 정의됩니다:
\[
PGR(R_{\text{bin}}^\alpha) = \frac{r(R_{\text{bin}}^\alpha) - r(M_{\text{weak}})}{r(M_{\text{strong}}) - r(M_{\text{weak}})}.
\]

복합 지표: 평균 성능 격차 회복(APGR)
이 지표들만으로는 라우팅에서 품질-비용 간의 트레이드오프를 충분히 설명하지 못함

예를 들어, 모든 쿼리를 강력한 모델로 보내는 단순한 라우터는 $ PGR = 1 $을 달성하지만 비용 절감은 전혀 이루어지지 않음

따라서, 라우터 $ R_{\text{bin}} $에 대해 임계값 $ \alpha $를 다양하게 변경하면서 호출-성능 그래프를 계산

특정 비용 제약 하에서 라우터가 성능 격차를 얼마나 잘 회복할 수 있는지를 나타내는 지표로 평균 성능 격차 회복(APGR)을 정의
\[
APGR(R_{\text{bin}}) = \int_0^1 PGR(R_{\text{bin}}^\alpha) \, d(c(R_{\text{bin}}^\alpha)).
\]

Figure 1-(오른쪽)에서 APGR은 라우터의 성능 곡선과 약한 모델의 성능 사이의 면적으로 나타남

실험적으로, 호출 비율 구간 $[0\%, 100\%]$을 $ \{c_i\}_{i \in [10]} $로 이산화(discretize)

각 $ c_i $에 대해 비용 제약을 충족하는 임계값 $ \alpha_i $를 결정

APGR은 다음 공식으로 근사화
\[
APGR(R_{\text{bin}}) \approx \frac{1}{10} \sum_{i=1}^{10} PGR(R_{\text{bin}}^{\alpha_i}).
\]

호출-성능 임계값(Call-Performance Threshold, CPT)
실제 응용에서는 특정 성능 수준을 달성하는 데 필요한 비용을 정량화하는 것이 중요

따라서 두 번째 지표로 호출-성능 임계값(CPT)을 정의

원하는 라우터 성능($ x\% $의 $ PGR $)이 주어졌을 때, $ \text{CPT}(x\%) $는 해당 $ PGR $을 달성하기 위해 강력한 모델로 호출해야 하는 최소 비율을 나타냄

Figure 1-(오른쪽)에서 점선 녹색 선은 $ 50\% $의 $ PGR $을 달성하기 위해 GPT-4 호출이 필요한 비율($ \text{CPT}(50\%) \approx 37\% $)을 나타냄

3. Methodology

3.1 선호 데이터 (Preference Data)
라우팅 함수를 학습하기 위해 필요한 선호 데이터를 얻는 방법에 대해 설명

주로 온라인 Chatbot Arena 플랫폼에서 수집된 80,000개의 대결 데이터를 사용

이 플랫폼에서는 사용자가 챗봇 인터페이스와 상호작용하며 자신이 선택한 프롬프트를 제출

프롬프트가 제출되면 두 개의 익명 모델이 생성한 응답을 받고, 사용자는 승리 모델 또는 동점에 투표

\[
D_{\text{arena}} = \{ (q, a_i, a_j, l_{i,j}) \mid q \in Q, a_i, a_j \in A, l_{i,j} \in L \}
\]

여기서:
- $ q $: 사용자 쿼리.
- $ a_i, a_j $: 두 모델 $ M_i $, $ M_j $의 응답.
- $ l_{i,j} $: 인간 판단에 기반한 쌍별 비교 레이블.

Chatbot Arena의 원시 데이터를 사용할 때 주요 문제는 레이블의 희소성

예를 들어, 평균적으로 두 모델 간 비교 레이블의 비율은 0.1% 미만입니다.

따라서, 라우터 학습을 위한 선호 데이터를 다음과 같이 생성
먼저, Chatbot Arena의 모델들을 $ D_{\text{arena}} $에서 10개의 서로 다른 티어로 클러스터링(Appendix A 참조).

각 모델의 Elo 점수를 사용하여 Chatbot Arena 리더보드 상의 클러스터링을 수행하며, 동적 프로그래밍을 통해 각 티어 내 변동성을 최소화

1, 2 티어 모델을 강력한 모델($ M_{\text{strong}} $), 3 티어 모델을 약한 모델($ M_{\text{weak}} $)로 정의

주로 이 티어들 간의 대결 데이터를 기반으로 학습하지만, 다른 티어들 간의 대결 데이터를 활용하여 학습 방법을 정규화

핵심적으로, $ D_{\text{arena}} $에서 실제 모델 응답은 제외하고 모델 ID만 남깁니다.

즉, $ e \sim D_{\text{pref}} $는 다음과 같이 정의됩니다:

\[
e = (q, M_i, M_j, l_{i,j})
\]

여기서 비교 레이블 $ l_{i,j} $는 특정 쿼리 $ q $에 대해 LLM $ M_i $와 $ M_j $의 상대적 능력

이는 쿼리의 유형과 복잡성에 따른 두 모델의 상대적 능력에 대한 통찰력을 제공

3.2 라우팅 접근법 (Routing Approaches)
$ (q, M_i, M_j, l_{i,j}) \sim D_{\text{pref}} $인 샘플을 $ e = (q, M_w, M_l) $로 나타내며, 여기서 $ M_w $와 $ M_l $은 각각 승리한 모델과 패배한 모델을 나타냅니다.

#### 유사성 가중 순위 (Similarity-weighted (SW) Ranking)

우리는 Bradley-Terry (BT) 모델 [7]을 [12]와 유사하게 채택합니다. 사용자 질의 $ q $에 대해, 학습 데이터에 있는 각 질의 $ q_i $가 $ q $와의 유사성에 기반하여 다음과 같은 가중치 $ \omega_i $를 계산합니다:

\[
\omega_i = \gamma^{1 + S(q, \hat{q})}
\]

여기서 유사성 $ S(q, q_i) $는 다음과 같이 정의됩니다:

\[
S(q, q_i) = \frac{\epsilon \cdot \epsilon_i}{\|\epsilon\| \|\epsilon_i\|} \cdot \max_{1 \leq s \leq |D_{\text{pref}}|} \frac{\epsilon_i \cdot \epsilon_s}{\|\epsilon_i\| \|\epsilon_s\|}
\]

여기서 $ \epsilon $은 질의 임베딩입니다. 우리는 $ D_{\text{pref}} $를 기반으로 다음과 같은 최적화 문제를 풀어 BT 계수 $ \xi $를 학습합니다 ($ \xi $는 10개의 모델 클래스를 나타냄):

\[
\arg\min_{\xi} \sum_{i=1}^{|D_{\text{pref}}|} \left[ \omega_i \cdot \ell \left( l_i, \frac{1}{1 + e^{\xi_{w_i} - \xi_{l_i}}} \right) \right]
\]

여기서 $ \ell $은 이진 크로스엔트로피 손실입니다. 결과적으로 얻은 BT 계수를 통해 다음과 같이 승리 확률을 추정할 수 있습니다:

\[
P(\text{win } M_w | q) = \frac{1}{1 + e^{\xi_w - \xi_l}}
\]

이 라우터 모델은 학습이 필요하지 않으며, 추론 시간에 계산이 수행됩니다.

행렬 분해 (Matrix Factorization)

추천 시스템에서 사용자-아이템 상호작용의 저차원 구조를 포착하기 위해 사용되는 행렬 분해 모델 [21, 28]에서 영감을 받아, 우리는 선호 데이터를 학습하기 위해 이 접근법을 사용합니다. 핵심은 숨겨진 점수 함수 $ s : M \times Q \to \mathbb{R} $를 발견하는 것입니다. 점수 $ s(M_w, q) $는 모델 $ M_w $가 질의 $ q $에 대해 제공한 응답의 품질을 나타냅니다. 즉, 모델 $ M_w $가 $ q $에서 $ M_l $보다 나은 경우 $ s(M_w, q) > s(M_l, q) $가 성립해야 합니다. 우리는 다음과 같은 BT 관계를 모델링하여 이 관계를 적용합니다:

\[
P(\text{win } M_w | q) = \sigma(s(M_w, q) - s(M_l, q)),
\]

여기서 $ \sigma $는 시그모이드 함수입니다. 우리는 선호 데이터에서 이를 최적화합니다. 점수 함수 $ s $는 모델과 질의의 선형 관계로 모델링되며, 모델 $ M $의 ID는 $ d_m $-차원의 벡터 $ v_m $, 질의는 $ d_q $-차원의 벡터 $ v_q $로 임베딩됩니다:

\[
s(M, q) = w_2^T \left( v_m \odot \left( W_1^T v_q + b \right) \right)
\]

여기서 $ \odot $는 아다마르 곱 (Hadamard product)을 나타내며, $ W_1 \in \mathbb{R}^{d_q \times d_m} $와 $ b \in \mathbb{R}^{d_m} $는 $ v_q $의 차원을 $ v_m $과 맞추는 투영 레이어, $ w_2 \in \mathbb{R}^{d_m} $는 최종 스칼라를 생성하기 위한 선형 회귀 레이어입니다. 이 방법은 본질적으로 $ Q \times M $ 집합의 점수 행렬의 행렬 분해를 학습하는 것입니다. 우리는 8GB GPU에서 약 10 에포크 동안 이 모델을 학습하며, 배치 크기는 64, 학습률은 $ 3 \times 10^{-4} $, 가중치 감쇠는 $ 1 \times 10^{-5} $입니다.

BERT 분류기 (BERT Classifier)

우리는 기존의 텍스트 분류 방식을 탐구하며, 이전 방법들보다 더 많은 매개변수를 사용하는 BERT-base 아키텍처 [14]를 사용하여 사용자 질의의 문맥적 임베딩을 제공합니다. 승리 확률은 다음과 같이 정의됩니다:

\[
P_\theta(\text{win } M_w | q) = \sigma(W h_{\text{CLS}} + b),
\]

여기서 $ h_{\text{CLS}} $는 입력 질의 $ q $를 요약하는 특수 분류 토큰 (CLS)에 해당하는 임베딩이고, $ W $, $ b $, $ \sigma $는 로지스틱 회귀 헤드의 매개변수와 시그모이드 활성화 함수입니다. 우리는 $ D_{\text{pref}} $에 대해 전체 매개변수 미세 조정을 수행합니다. 모델 학습은 2xL4 24GB GPU에서 약 2000단계 동안 수행되며, 배치 크기는 16, 최대 시퀀스 길이는 512, 학습률은 $ 1 \times 10^{-5} $, 가중치 감쇠는 0.01입니다.

인과 LLM 분류기 (Causal LLM Classifier)

마지막으로, Llama 3 8B [3]로 매개변수화하여 라우터의 용량을 확장합니다. 우리는 지시문을 따르는 패러다임을 사용하며 [31], 사용자 질의를 포함하는 지시문 프롬프트를 입력으로 제공하고, 별도의 분류 헤드를 사용하지 않고 다음 토큰 예측 방식으로 승리 확률을 출력합니다. 특히, 비교 라벨을 어휘에 추가 토큰으로 추가하고, 라벨 클래스 $ L $에 대한 소프트맥스를 사용해 승리 확률을 계산합니다. 모델 학습은 8xA100 80GB GPU에서 약 2000단계 동안 수행되며, 배치 크기는 8, 최대 시퀀스 길이는 2048, 학습률은 $ 1 \times 10^{-6} $입니다.

4. 실험 (Experiments)

훈련 데이터:
3.1장에서 언급한 것처럼, 우리는 주로 Chatbot Arena의 80,000개 데이터를 사용하여 모델을 훈련하지만, 5,000개 샘플을 검증(validation)용으로 보류합니다. 16자 미만의 프롬프트 샘플은 제거하여, 최종적으로 **64개의 서로 다른 모델 간 65,000개의 쌍 비교(pairwise comparison)**가 이루어진 데이터를 생성합니다. 이 데이터는 100개 이상의 언어로 이루어진 대화로 구성되어 있으며, 대화의 주요 언어 분포는 다음과 같습니다:
- 영어: 81%
- 중국어: 3.1%
- 러시아어: 2.2%

우리는 비교 레이블의 희소성을 줄이기 위해 모델을 10개의 클래스에 할당합니다. 3.1.1장에서 논의한 것처럼, 우리는 훈련 데이터를 다음 중 하나로 보강합니다:
1) **$ D_{\text{gold}} $**: MMLU 검증 데이터(split)로부터 생성된 골든 라벨 데이터.
2) **$ D_{\text{judge}} $**: GPT-4를 심판(judge)으로 사용해 레이블이 지정된 채팅 데이터.

평가 벤치마크:
우리는 라우터를 세 가지 널리 사용되는 학술 벤치마크에서 평가합니다:
1. **MMLU [17]**:
   - 57개의 주제에 걸쳐 14,042개의 질문으로 구성.
2. **MT Bench [33]**:
   - LLM을 심판으로 사용하는 160개의 오픈엔디드 질문.
3. **GSM8K [13]**:
   - 1,000개 이상의 초등학교 수준 수학 문제.

또한, 우리는 평가 데이터셋과 훈련 데이터셋 간의 **교차 오염(cross-contamination)**을 점검하고, 오염되지 않은 결과를 아래에 보고합니다. 공용(public) 벤치마크에서 결과를 발표하여 라우터의 도메인 외 일반화(out-of-domain generalization) 성능을 이해합니다.

라우터:
- **Matrix Factorization Router**와 **Similarity-weighted Ranking Router** 모두에 대해, 우리는 OpenAI의 **text-embedding-3-small** 임베딩 모델을 사용하여 입력 쿼리를 임베딩합니다.
- 우리는 BERT와 Causal LLM 모두에서 전체 매개변수 미세조정(full-parameter fine-tuning)을 수행하고, 검증 세트를 사용하여 모델을 선택합니다.
- 우리는 **GPT-4-1106-preview [23]**를 강력한 모델($ M_{\text{strong}} $)의 대표 모델로, **Mixtral 8x7B [19]**를 약한 모델($ M_{\text{weak}} $)의 대표 모델로 선택하여 라우터 성능을 명확히 평가합니다.
- 비용 제약(cost constraint) 하에서 쿼리를 무작위로 라우팅하는 **랜덤 라우터(Random Router)**를 기준선(baseline)으로 사용합니다.

표 1은 MT Bench에서의 라우터 성능을 보여줍니다. Arena 데이터셋으로 훈련된 라우터의 경우, 행렬 분해(Matrix Factorization)와 유사성 가중 순위(Similarity-weighted Ranking) 모두에서 강력한 성능을 관찰할 수 있었으며, 두 라우터 모두 모든 지표에서 랜덤 라우터(Random Router)보다 상당히 우수한 성능을 보였습니다. 특히, 행렬 분해 라우터는 PGR(Performance Gap Recovered) 50%를 달성하기 위해 랜덤 라우터 대비 GPT-4 호출 수를 절반으로 줄였습니다. 그러나 Arena 데이터셋으로 훈련된 BERT와 인과 LLM(Causal LLM) 분류기는 랜덤과 유사한 성능을 보였는데, 이는 높은 용량의 모델이 낮은 데이터 환경에서 더 낮은 성능을 보이는 경향 때문이라고 판단됩니다.

GPT-4 심판(GPT-4 judge)을 사용하여 선호 데이터를 보강하면 모든 라우터에서 상당한 성능 개선이 이루어졌습니다. BERT와 인과 LLM 라우터는 이제 랜덤 기준선(Random Baseline)보다 훨씬 나은 성능을 보였으며, 특히 BERT 분류기는 랜덤 대비 APGR(Average Performance Gap Recovered)이 50% 이상 향상되었습니다. 이 보강된 데이터셋으로 훈련되었을 때, 행렬 분해 라우터는 가장 우수한 성능을 보였으며, CPT(80%)가 거의 절반으로 감소하여 랜덤 라우터 대비 50% 적은 GPT-4 호출이 필요했습니다.

또한, 부록 E에서는 우리의 라우터를 기존 라우팅 시스템과 비교하여, 우리의 라우터가 다른 사용 가능한 시스템들에 비해 상당한 성능 개선을 달성했음을 보여줍니다.

MMLU(Table 2)에서, Arena 데이터셋으로만 훈련된 경우 모든 라우터가 랜덤 라우터 수준의 낮은 성능을 보였습니다. 이는 MMLU 질문 대부분이 훈련 데이터의 분포 밖(out-of-distribution)에 속하기 때문이라고 판단됩니다(4.2절 참조). 그러나 MMLU 검증 데이터(split)에서 추출된 골든 라벨 데이터를 훈련 데이터셋에 추가하면, 모든 라우터에서 MMLU 성능이 크게 개선되었습니다. 모든 라우터가 CPT(50%)를 달성하기 위해 랜덤 라우터 대비 약 20% 적은 GPT-4 호출만 필요했습니다.

중요한 점은, 추가된 골든 라벨 데이터가 약 1500개의 샘플로, 전체 훈련 데이터의 2% 미만에 불과함에도 불구하고 데이터 보강이 높은 효과를 보였다는 것입니다. 이는 샘플 수가 적더라도 데이터 보강이 성능 향상에 매우 효과적임을 보여줍니다.

4.2 데이터셋 및 벤치마크 유사성 정량화

우리는 동일한 데이터셋으로 훈련된 라우터들이 서로 다른 벤치마크에서 성능 차이를 보이는 이유를 평가 데이터와 훈련 데이터의 분포 차이에 기인한다고 봅니다. 각 벤치마크-데이터셋 쌍에 대해 벤치마크-데이터셋 유사성 점수를 계산했으며, 이는 훈련 데이터에서 평가 데이터가 얼마나 잘 나타나는지를 나타냅니다. 자세한 내용은 부록 C에 설명되어 있으며, 결과는 Table 4에 나와 있습니다.

벤치마크-데이터셋 유사성 점수와 라우터 성능

높은 벤치마크-데이터셋 유사성 점수는 해당 데이터셋으로 훈련된 라우터의 벤치마크 성능 향상과 상관관계가 있습니다(4.1절 참조).
데이터셋 보강(골든 라벨 데이터 또는 LLM 심판 레이블 데이터 활용)은 선호 데이터의 분포를 벤치마크와 더 유사하게 변화시키며, 유사성 점수를 증가시킵니다. 이는 성능 개선으로 이어집니다.
유사성 점수는 라우터가 다른 벤치마크에서 보이는 상대적 성능을 이해하는 데 유용합니다:
- MT Bench와 Arena 데이터셋 간 유사성 점수는 다른 벤치마크보다 현저히 높습니다.
- 이는 라우터가 GSM8K 및 MMLU에 비해 MT Bench에서 상대적으로 더 나은 성능을 보이는 이유를 설명합니다.
벤치마크-데이터셋 유사성 점수는 쿼리 분포에 대한 정보를 바탕으로 라우터 성능을 체계적으로 개선하는 유망한 방향으로 평가됩니다.

4.3 다른 모델 쌍에의 일반화

기존 실험 모델: 위 실험에서는 강력한 모델로 GPT-4-1106-preview [23]을, 약한 모델로 Mixtral 8x7B [19]을 사용했습니다.
새로운 모델 쌍 평가:
- 라우터 프레임워크의 다른 모델 쌍에 대한 일반화 가능성을 입증하기 위해, 이 섹션에서는 MT Bench에서 Claude 3 Opus [6]와 Llama 3 8B [5]를 라우팅 대상으로 성능을 평가합니다.
- 중요한 점은, 라우터를 재훈련하지 않고 기존 라우터를 그대로 사용하며, 강력한 모델과 약한 모델만 교체했습니다.
추가적인 점:
- Claude 3 Opus와 Llama 3 8B는 훈련 데이터에 포함되지 않은 모델입니다.
- 이는 라우터가 특정 모델에 종속되지 않고 다른 모델 쌍에서도 성능을 발휘할 수 있음을 보여줍니다.

다시 한 번, 모델 쌍이 교체되었음에도 불구하고 MT Bench에서 모든 기존 라우터가 강력한 결과를 보였습니다. 모든 라우터의 성능은 기존 모델 쌍과 비교해도 유사하며, 새로운 모델 쌍과 기존 모델 쌍 모두에서 랜덤 라우터에 비해 여전히 상당히 더 나은 성능을 보였습니다. 특히, 우리의 라우터는 CPT(80%)를 달성하기 위해 랜덤 라우터 대비 최대 30% 적은 GPT-4 호출만 필요했습니다.

이 결과는 우리의 라우터가 강력한 모델과 약한 모델을 구별할 수 있는 문제의 공통된 특징을 학습했음을 시사합니다. 이러한 학습된 특징은 새로운 강력한 모델과 약한 모델 쌍에도 추가적인 훈련 없이 일반화될 수 있습니다.

4.4 Cost analysis

우리는 GPT-4와 Mixtral 8x7B 사용의 평균 비용을 각각 백만 토큰당 $24.7 및 백만 토큰당 $0.24로 추정합니다(자세한 내용은 부록 D 참조). 표 6에서는 우리의 접근법을 통해 달성한 비용 절감 효과를 정량화한 결과를 보여줍니다.

비용 분석에서 GPT-4의 비용이 지배적 요소이기 때문에, 우리는 우리의 최고 성능 라우터가 사용하는 GPT-4 호출 수를 랜덤 기준선과 비교한 비율의 역수를 계산하여 비용 절감을 측정합니다.

우리의 라우터는 최대 3.66배의 최적 비용 절감을 달성했으며, 이는 라우팅이 응답 품질을 유지하면서도 비용을 크게 절감할 수 있음을 보여줍니다.

라우팅 오버헤드에 대한 우려

LLM 라우팅에서 우려되는 점 중 하나는 단일 모델을 사용하는 것에 비해 라우팅으로 인해 발생하는 오버헤드입니다. 따라서, 우리는 Chatbot Arena에서 무작위로 샘플링된 대화를 사용하여 라우터의 오버헤드를 측정하고 표 7에 그 실용성을 보고합니다.

GPU가 필요한 라우터(행렬 분해 및 분류기 기반 방법):
- Google Cloud의 g2-standard-4 VM(NVIDIA L4 GPU 포함)을 사용합니다.
CPU 전용 라우터(유사성 가중 랭킹):
- Google Cloud의 n2-standard-8 VM을 사용합니다.

현재 GPU 기반 라우터는 CPU 기반 라우터보다 훨씬 효율적이지만, 라우터의 처리량(throughput)을 최적화할 여지는 여전히 많습니다. 그러나, 가장 비용이 많이 드는 SW 랭킹 라우터도 GPT-4 생성과 비교했을 때 추가 비용이 0.4%를 넘지 않습니다(부록 D 참조).

5. 결론

라우터 성능:
- 우리는 다양한 벤치마크(오픈엔디드 질문 응답, 인문학, 수학 문제)에서 라우터의 강력한 라우팅 성능을 입증했습니다.
- 강력한 모델과 약한 모델 간의 쿼리를 지능적으로 라우팅함으로써, 높은 응답 품질을 유지하면서도 비용을 크게 절감할 수 있었습니다.
데이터셋 보강의 효과:
- Arena 데이터셋만으로 라우터를 훈련할 경우 MMLU와 GSM8K에서 성능이 저조했으나, LLM 심판 데이터를 추가하거나 도메인 특화 데이터를 보강함으로써 모든 벤치마크에서 랜덤 기준선을 능가할 수 있었습니다.
- 가장 큰 성능 향상은 훈련 데이터가 평가 데이터와 유사할 때 발생했으며, 이는 벤치마크-데이터셋 유사성 점수로 확인할 수 있었습니다.
- 우리는 이 프레임워크가 특정 사용 사례에 맞게 라우팅 성능을 향상시킬 수 있는 명확하고 확장 가능한 방향을 제공한다고 믿습니다.
제한점 및 향후 연구 방향:
1. 실제 사용 사례와 벤치마크의 차이:
  - 다양한 벤치마크에서 평가했지만, 실제 응용 프로그램의 데이터 분포는 이와 크게 다를 수 있습니다.
  - 이를 해결하기 위해, 소량의 도메인 데이터를 수집하여 데이터셋 보강을 통해 특정 사용 사례의 성능을 향상시킬 수 있음을 보여주었습니다.
2. 다중 모델 라우팅:
  - 본 연구는 두 모델 간 라우팅에 초점을 맞췄지만, 이를 다중 모델 환경으로 확장하는 것이 유망한 미래 연구 방향입니다.
3. 라우터 간 성능 차이:
  - 동일한 데이터셋으로 훈련된 라우터가 동일한 벤치마크에서 성능 차이를 보이는 경우가 관찰되었으며, 이에 대한 명확한 설명은 아직 없습니다. 이는 향후 연구 주제로 남겨둡니다.