논문

11. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations

정일균 2024. 4. 6. 23:10

감성에 대한 논문을 공부하다가 유명한 데이터 셋인 MELD에 대해서 논문과 함께 정리를 해보려고 한다.

Let's go


MELD (Multimodal EmotionLines Dataset)는 대화 중 감정 인식(Emotion Recognition in Conversations, ERC)에 도전하는 새로운 데이터셋입니다.

최근에야 흔하지만 이전에는 대화당 두 명 이상의 화자를 포함하는 대규모 다중 모달 감정 대화 데이터베이스는 아직까지 없었다고 한다.

MELD는 이러한 문제를 해결하기 위해서 제안된 것으로, EmotionLines의 확장판입니다.

MELD에는 TV 시리즈 "Friends"에서 추출된 약 13,000개의 발화와 1,433개의 대화가 포함되어 있으며, 각 발화는 감정과 정서 라벨로 주석이 달려 있습니다. 이 데이터셋은 오디오, 비주얼, 텍스트의 3가지 모달리티를 포함하고 있습니다. 다중 모달 베이스라인을 제안하고 대화에서 감정을 인식하는 데 있어 문맥적 및 다중 모달 정보의 중요성을 보여줍니다. 데이터셋 전체는 공개적으로 사용 가능합니다​​.


인공 지능(AI)의 급속한 발전과 함께, 멀티모달 감정 인식은 다양한 어려운 과제, 예를 들어 대화 생성, 사용자 행동 이해, 멀티모달 상호작용 등에서의 잠재적 응용으로 인해 주요 연구 주제가 되었습니다. 대화에서 감정 인식 시스템은 사용자 감정을 분석하여 적절한 반응을 생성하는 데 사용될 수 있습니다.

기존의 연구들은 주로 오디오, 비주얼, 텍스트 모달리티를 사용하는 멀티모달 감정 인식에 집중되어 왔으나, 대화에서의 감정 인식(ERC)에 대한 연구는 상대적으로 적었습니다. 이는 대규모 멀티모달 대화 데이터셋의 부재가 주된 원인 중 하나입니다.

ERC는 대화 맥락 모델링, 대화 참여자들의 감정 변화 등 여러 가지 도전 과제를 제시합니다. 이러한 도전 과제들을 해결하기 위한 최근의 연구에서는 멀티모달 메모리 네트워크를 기반으로 한 솔루션을 제안하고 있지만, 이러한 연구들은 대부분 이원 대화에 한정되어 있어 여러 대화 참여자를 포함하는 ERC로의 확장성이 제한적입니다. 따라서, 다자간 대화를 포함하는 연구를 촉진할 수 있는 데이터 자원의 필요성이 대두됩니다.

대화에서, 참여자들의 발화는 일반적으로 그들의 대화 맥락에 따라 달라집니다. 이는 감정 표현에도 마찬가지로 적용됩니다. 다시 말해, 맥락은 어떤 사람이 특정 감정을 표현하면서 발화를 하는 데 영향을 미치는 일련의 매개변수 역할을 합니다. 이 맥락 모델링은 순환 신경망(RNNs)과 메모리 네트워크를 사용하는 등 다양한 방법으로 수행될 수 있습니다​​.

그림 1은 대화가 발전함에 따라 발화자들이 감정을 변화시키는 예를 보여줍니다(감정 변화). 여기서의 감정 역학은 이전 발화와 그에 관련된 감정 모두에 의존합니다. 예를 들어, 그림에서 발화 8의 감정 변화는 발화자 양쪽의 표정과 대화 역사에서 단서를 얻지 않는 한 결정하기 어렵습니다. 이러한 복잡한 대화 참여자 간 의존성을 모델링하는 것은 대화 모델링에서의 주요 도전 과제 중 하나입니다.

대화는 그 자체로 다중 모달입니다. 대화에서, 우리는 다른 사람의 표정, 목소리 톤, 언어 및 제스처를 통해 그들의 태도를 예측합니다. 감정 인식에서는 특히 다중 모달성이 중요합니다. 언어로 이해하기 어려운 발화의 경우, 우리는 종종 음성 및 시각적 신호와 같은 다른 모달리티를 활용하여 그들의 감정을 식별합니다. 그림 2는 데이터셋에서 텍스트 자체 외에도 다중 모달 신호의 존재가 그들의 감정과 정서를 정확히 예측하는 데 필요한 예를 보여줍니다.

 

연속적인 차례에서의 다중 모달 감정 인식은 여러 가지 다른 도전 과제에 직면합니다. 그 중 하나는 짧은 발화의 분류입니다. "네", "오케이", "아니요"와 같은 발화는 대화의 맥락과 담화에 따라 다양한 감정을 표현할 수 있습니다. 그러나 텍스트만으로 감정을 인지하는 것이 어렵기 때문에, 대부분의 모델은 다수 클래스(예: EmotionLines에서의 비중립)를 할당하는 방식을 취하고 있습니다.

 

MELD에서 발화의 약 42%가 다섯 단어 미만입니다. 따라서 우리는 각 대화에 대한 다중 모달 데이터 소스에 접근을 제공하며, 이 추가 정보가 문맥 표현을 개선하고 다른 모달리티에서 누락되거나 오도하는 신호를 보완함으로써 감정 인식 작업에 도움이 될 것이라고 주장합니다. 화자의 얼굴 표정이나 말투와 같은 속성에서 오는 추가 정보가 모델을 더 나은 분류로 안내할 수 있습니다. 우리는 실험을 통해 이러한 주장에 대한 증거를 제공합니다.

따라서 대화형 AI의 개발은 문맥과 다중 모달 정보의 사용에 의존합니다. EmotionLines(Chen et al., 2018)는 두 명 이상의 화자가 있는 인기 TV 시리즈 Friends의 대화를 포함하는 데이터셋입니다. 그러나 EmotionLines는 다른 모달리티의 데이터를 제공하지 않기 때문에 텍스트 분석에만 사용할 수 있습니다.

이 작업에서는 EmotionLines 데이터셋을 다중 모달 시나리오에 맞게 확장, 개선하고 더욱 발전시킵니다. 우리는 텍스트 대화뿐만 아니라 해당하는 시각적 및 오디오 대응물도 포함하는 Multimodal EmotionLines Dataset(MELD)을 제안합니다. 이 논문은 여러 가지 기여를 합니다:

  • MELD는 이전 데이터셋에서 사용할 수 있는 이원 대화형 변형보다 분류하기 더 어려운 다자간 대화를 포함합니다.
  • MELD에는 13,000개 이상의 발화가 포함되어 있어, 기존의 다중 모달 대화형 데이터셋의 거의 두 배 크기입니다.
  • MELD는 다중 모달 소스를 제공하며, 강화된 지상 학습을 위한 다중 모달 영향 대화 시스템에서 사용될 수 있습니다.
  • 우리는 다자간 대화에서의 감정 인식을 위해 대화참가자 간 의존성 모델링이 가능한 Majumder et al. (2019)에 의해 제안된 강력한 기준을 설정합니다.

EmotionLines 데이터셋

MELD 데이터셋은 Chen et al. (2018)에 의해 개발된 EmotionLines 데이터셋에서 진화했습니다. EmotionLines는 인기 있는 시트콤 "Friends"에서 대화를 포함하고 있으며, 각 대화는 여러 화자의 발화를 담고 있습니다.

 

각 대화에서의 발화는 가장 적절한 감정 카테고리로 주석이 달렸습니다. 이 목적을 위해, Ekman의 여섯 가지 보편적 감정(기쁨, 슬픔, 두려움, 분노, 놀람, 혐오)이 주석 라벨로 고려되었습니다. 이 주석 목록은 두 가지 추가 감정 라벨인 중립과 비중립으로 확장되었습니다.

 


MELD 코퍼스의 구축을 시작하기 위해, EmotionLines 데이터셋의 모든 대화에서 모든 발화의 시작 및 종료 타임스탬프를 추출합니다. 이를 위해 모든 에피소드의 자막을 크롤링하여 해당 타임스탬프를 추론적으로 추출합니다. 특히, 다음과 같은 제약 사항을 적용합니다:

  1. 대화 내의 발화 타임스탬프는 증가하는 순서여야 합니다.
  2. 대화 내의 모든 발화는 같은 에피소드와 장면에 속해야 합니다.

이러한 제약 사항은 EmotionLines에서 몇몇 대화가 장면이나 에피소드를 넘나드는 이상치를 드러냈습니다. 예를 들어, 표 2의 대화는 각각 시즌 6의 에피소드 4와 시즌 5의 에피소드 20에서 두 자연스러운 대화를 포함하고 있습니다. 우리는 이러한 이상치를 필터링하기로 결정하여, EmotionLines와 비교했을 때 MELD에서는 총 대화 수가 달라지게 되었습니다(표 1 참조).

다음으로, 우리는 세 명의 주석자를 고용하여 각 발화에 라벨을 붙이고, 다수결 투표를 통해 발화의 최종 라벨을 결정합니다. 세 주석자의 의견이 모두 다른 몇몇 발화를 제외하고, 일관성을 유지하기 위해 해당 대화도 제거합니다. 이 범주에는 총 89개의 발화가 포함되어 11개의 대화가 해당됩니다.

마지막으로, 각 발화의 타임스탬프를 얻은 후, 원본 에피소드에서 해당 오디오-비주얼 클립을 추출하고 이 클립에서 오디오 콘텐츠를 추출합니다. 오디오 파일은 추가 처리를 위해 16비트 PCM WAV 파일로 포맷됩니다. 최종 데이터셋은 각 발화에 대해 시각적, 오디오, 텍스트 모달리티를 포함합니다.

 

원본 EmotionLines 데이터셋의 발화는 대본만을 보고 주석이 달렸습니다. 그러나 다중 모달성에 중점을 두고 있기 때문에, 우리는 세 명의 주석자에게 발화의 비디오 클립도 함께 확인하도록 요청하며 모든 발화를 재주석합니다. 그 후 다수결 투표를 사용해 각 발화의 최종 라벨을 얻습니다.

EmotionLines 데이터셋에서 2,772개의 발화가 비중립으로 라벨링되었으며, 주석자들은 감정이 중립이 아니라고 동의했지만 정확한 감정 라벨에 대해서는 합의에 이르지 못했습니다. 이는 분류를 방해합니다. 우리의 경우, 주석자들이 확실한 감정 라벨에 대해 합의에 이르지 못한 발화를 제거합니다.

우리의 주석 과정에서 불일치한 수는 89개로, EmotionLines의 2,772개의 불일치보다 훨씬 낮아, 다중 모달 데이터셋을 통한 주석 개선이 다시 한번 반영되었습니다. 표 3은 주석자들이 합의에 이르지 못한 발화의 예를 보여줍니다.

표 4는 EmotionLines와 MELD 데이터셋 간의 라벨별 비교를 보여줍니다. MELD의 대부분의 발화에서 주석은 EmotionLines의 원래 주석과 일치합니다. 그러나 재주석 과정에서 변경된 샘플의 상당한 양이 존재합니다. 예를 들어, "This guy fell asleep!"라는 발화는 EmotionLines에서 비중립으로 라벨링되었지만, 관련 비디오 클립을 본 후 MELD에서는 정확하게 분노로 재라벨링되었습니다.

이 발화의 비디오는 화가 나고 좌절한 표정과 높은 목소리 톤을 드러내어, 올바른 감정을 인식하는 데 도움을 줍니다. EmotionLines의 주석자들은 맥락에 접근할 수 있었지만, 이는 때때로 추가 모달리티가 특정 인스턴스의 분류에 더 많은 정보를 가져올 수 있기 때문에 충분하지 않았습니다. 이러한 시나리오는 대화에서 감정 인식을 위해 맥락과 다중 모달성이 중요한 측면임을 정당화합니다.

타임스탬프 정렬. 자막 파일 내에서 동일한 타임스탬프로 그룹화된 많은 발화가 있습니다. 각 발화의 정확한 타임스탬프를 찾기 위해, 우리는 Gentle이라는 전사 정렬 도구를 사용하여 오디오에서 단어 수준의 타임스탬프를 추출하여 전사와 자동으로 정렬합니다(표 6 참조). 표 7에서는 MELD 데이터셋의 최종 형식을 보여줍니다.

 

우리는 또한 MELD의 모든 비확장 연속 이원 하위 대화를 추출한 또 다른 버전의 MELD를 제공합니다. 예를 들어, MELD의 3자 대화에서 화자 ID가 1, 2, 3인 경우, 그들의 차례가 다음 순서로 진행됩니다: [1,2,1,2,3,2,1,2].

이 대화 순서에서, 이원 MELD는 다음과 같은 하위 대화를 샘플로 가질 것입니다: [1,2,1,2], [2,3,2] 및 [2,1,2]. 그러나, 이 논문에서 보고된 결과는 오직 다자간 변형의 MELD를 사용하여 얻은 것입니다.

 

앞서 언급한 바와 같이, 우리는 훈련, 개발, 테스트 분할 전반에 걸쳐 분노, 혐오, 두려움, 기쁨, 중립, 슬픔, 놀람 등 일곱 가지 감정을 주석으로 사용합니다(표 4 참조).

데이터셋의 감정 분포는 대다수의 감정이 중립인 것처럼 예상대로 비균일합니다. 우리는 이러한 세밀한 감정 라벨을 분노, 혐오, 두려움, 슬픔을 부정적으로, 기쁨을 긍정적으로, 중립을 중립 정서를 가진 클래스로 간주하여 더 거친 정서 클래스로 변환했습니다. 놀람은 긍정적 또는 부정적 정서로 표현될 수 있는 복잡한 감정의 예입니다. 발화 주석을 수행한 세 명의 주석자는 놀람 발화를 긍정적 또는 부정적 정서 클래스로 추가 주석했습니다. 

 

표 8은 데이터셋의 몇 가지 주요 통계를 제시합니다. 발화의 평균 길이, 즉 발화 내 단어 수는 훈련, 개발, 테스트 분할 전반에 거의 동일합니다. 평균적으로 각 대화에는 세 가지 감정이 존재합니다. 발화의 평균 지속 시간은 3.59초입니다. 대화에서 화자의 감정 변화는 감정 인식 작업을 매우 도전적으로 만듭니다. 우리는 대화에서 화자의 연속적인 발화에서 이러한 감정 변화가 매우 빈번하다는 것을 관찰합니다: 훈련/개발/테스트 분할에서 각각 4003, 427, 1003입니다. 그림 1은 대화에서 시간에 따라 화자의 감정이 변하는 예를 보여줍니다.

 

그림 3에서는 MELD의 주요 캐릭터의 분포적 세부사항을 제시합니다. 그림 a와 b는 각각 감정 및 정서 라벨에 따른 분포를 보여줍니다. 그림 c는 데이터셋 전체에 걸쳐 화자의 전반적인 커버리지를 보여줍니다. 자주 등장하지 않는 화자(< 1% 발화)는 기타로 그룹화됩니다.

 


특징 추출

우리는 Poria et al. (2017)을 따라 MELD의 각 발화에 대한 특징을 추출합니다. 텍스트 특징의 경우, 각 토큰을 사전 훈련된 300차원의 GloVe 벡터(Pennington et al., 2014)로 초기화하고 이를 1D-CNN에 입력하여 100차원의 텍스트 특징을 추출합니다. 오디오의 경우, 여러 저수준 기술자와 다양한 음성 및 억양 특징의 통계적 기능을 구성하는 6373차원 특징을 추출하는 인기 있는 툴킷인 openSMILE(Eyben et al., 2010)을 사용합니다. 오디오 표현이 고차원이기 때문에, 우리는 SVM과 같은 희소 추정기를 사용한 L2 기반 특징 선택을 사용하여 전체 오디오 세그먼트의 밀집된 표현을 얻습니다. 기준 모델의 경우, 비디오 기반 화자 식별 및 위치 지정이 여전히 해결되지 않은 문제이므로 시각적 특징은 사용하지 않습니다. 이중 모달 특징은 오디오와 텍스트 특징을 연결하여 얻습니다.

기준 모델

MELD에 대한 강력한 벤치마크를 제공하기 위해, 우리는 여러 기준 모델로 실험을 수행합니다. 각 기준 모델의 하이퍼파라미터 세부 사항은 http://github.com/senticnet/meld에서 찾을 수 있습니다.

text-CNN은 대화의 맥락을 고려하지 않고 입력 발화에 CNN을 적용하는 모델입니다(Kim, 2014). 이 모델은 맥락이나 다중 모달성을 활용하지 않는 가장 단순한 기준 모델을 대표합니다.

bcLSTM은 Poria et al. (2017)에 의해 제안된 강력한 기준 모델로, 양방향 RNN을 사용하여 맥락을 나타냅니다. 이는 먼저 단일 모달 맥락을 모델링하는 두 단계 계층적 과정을 따르고, 그 다음에 이중 모달 맥락 특징을 모델링합니다. 단일 모달 텍스트의 경우, GloVe 임베딩을 입력으로 받는 CNN-LSTM 모델이 각 발화에 대한 맥락 표현을 추출합니다. 단일 모달 오디오의 경우, LSTM 모델이 각 오디오 발화 특징 벡터에 대한 오디오 표현을 얻습니다. 마지막으로, 단일 모달 변형에서 얻은 맥락 표현이 분류를 위해 이중 모달 모델에 공급됩니다. bcLSTM은 다른 화자를 구분하지 않고 대화를 단일 시퀀스로 모델링합니다.

 

DialogueRNN은 대화형 감정 탐지를 위한 최신 기술을 대표하는 강력한 기준 모델입니다(Majumder et al., 2019). 이 모델은 대화 전반에 걸쳐 개별 화자 상태를 추적하여 맥락을 모델링하는 효과적인 메커니즘을 가지고 있으며, 감정 분류를 위해 설계되었습니다. DialogueRNN은 다자간 대화를 처리할 수 있으므로 MELD에 직접 적용될 수 있습니다. 이 모델은 감정 맥락을 모델링하기 위해 세 단계의 GRU(Chung et al., 2014)를 사용합니다. 말한 발화는 전역 GRU와 파티 GRU 두 개로 입력되어 맥락과 화자 상태를 각각 업데이트합니다. 각 차례에서, 파티 GRU는 말한 발화, 화자의 이전 상태, 그리고 주의 메커니즘을 통해 전역 GRU에 의해 요약된 대화 맥락을 기반으로 상태를 업데이트합니다. 마지막으로, 업데이트된 화자 상태는 감정 GRU로 공급되어 분류를 위한 감정 정보를 모델링합니다. 다양한 거리에서 다른 화자의 맥락 발화를 활용하기 위해 감정 GRU 상단에 주의 메커니즘이 사용됩니다. 다중 모달 신호의 역할을 분석하기 위해, 우리는 단일 및 이중 모달 설정에서 MELD에 대해 DialogueRNN과 bcLSTM을 분석합니다. 훈련에는 불균형 문제를 완화하기 위해 클래스 가중치 사용이 포함됩니다.

결과

MELD에서 감정 및 정서 분류의 두 가지 작업에 대한 결과를 제공합니다. 표 13은 DialogueRNN을 사용한 정서 분류의 성능을 보여주며, 이중 모달 변형이 67.56% F-score로 가장 높은 성능을 달성하여, 이중 모달 bcLSTM(66.68% F-score)을 초과합니다. 이중 모달 DialogueRNN은 단일 모달 변형보다도 우수한 성능을 보입니다. 그러나 융합으로 인한 개선은 텍스트 모달리티보다 약 1.4% 높아, 더 나은 융합 메커니즘을 통한 추가 개선의 가능성을 시사합니다. 텍스트 모달리티는 오디오 모달리티보다 약 17% 높은 성능을 보여, 정서 분석에서 구어 언어의 중요성을 나타냅니다. 긍정적 정서의 경우, 오디오 모달리티의 성능이 낮습니다. 긍정적 정서를 나타내는 발화에서 오디오 모달리티가 포착하지 못한 특정 단서를 분석하는 것이 흥미로울 것입니다. 향후 작업은 분류 성능을 향상시키기 위해 향상된 오디오 특징 추출 방식을 목표로 해야 합니다. 표 11은 MELD 감정 분류에서 기준 모델의 결과를 제시합니다. 혐오, 두려움, 슬픔 감정 클래스의 성능이 특히 낮습니다. 이는 언급된 감정 클래스에 대한 훈련 사례가 적은 데이터셋의 내재된 불균형 때문입니다(표 4 참조). 우리는 하이퍼파라미터로서 클래스 가중치를 사용하여 이를 부분적으로 해결합니다.

그러나 이러한 불균형은 향후 작업에서 더 개선될 필요가 있습니다. 또한, 분노, 혐오, 두려움 감정 카테고리 간의 높은 오분류율을 관찰하며, 이러한 감정들 사이의 미묘한 차이로 인해 구별이 더 어렵습니다. 정서 분류 경향과 유사하게, 텍스트 분류기는 오디오 분류기(57.03% F-score 대 41.79% F-score)보다 우수한 성능을 보입니다.

이중 모달 융합은 감정 인식 성능을 3% 향상시킵니다. 그러나 이중 모달 분류기는 슬픔을 분류하는 데 있어 텍스트 분류기보다 성능이 떨어집니다. 추가 분석을 위해, 우리는 드문 두려움과 혐오 감정을 제외하고 5개 감정 클래스로 실험을 실행합니다(표 12 참조). 놀랍지 않게, 결과는 7개 클래스 설정보다 훨씬 개선되어, 이중 모달 변형의 성능이 상당히 향상됩니다.

전반적으로, 감정 분류는 정서 분류보다 성능이 낮습니다. 이러한 관찰은 감정 분류가 더 세분화된 클래스로 분류를 다루기 때문에 예상되는 결과입니다.

추가 분석 맥락의 역할

MELD의 주요 목적 중 하나는 감정 인식을 위한 대화에서의 맥락 모델링을 훈련시키는 것입니다. 표 11과 13은 비맥락 모델(예: text-CNN - 4.1절 참조)에 비해 1.4%에서 2.5%까지 개선을 보여줍니다.

화자 간 영향

대화형 감정 역학을 모델링할 때 고려해야 할 중요한 고려사항 중 하나는 다자간 설정에서 동료 화자의 영향입니다. 우리는 DialogueRNN에서 전역 GRU의 주의 모듈 활성화를 살펴봄으로써 이 요소를 분석합니다. 우리는 올바른 테스트 예측의 63%(882~1381)에서 가장 높은 역사적 주의가 다른 화자의 발화에 주어진다는 것을 관찰합니다. 이 상당한 비율은 화자 간 영향이 중요한 매개변수임을 시사합니다. DialogueRNN과 달리, bcLSTM은 감정을 탐지할 때 화자 정보를 활용하지 않습니다. 표 11은 모든 실험에서 DialogueRNN이 bcLSTM보다 1-2%의 마진으로 우수한 성능을 보인다는 것을 보여줍니다. 이 결과는 화자 특정 감정 인식 모델링이 맥락 표현을 개선하고 화자 간 관계와 같은 중요한 단서를 포함하는 데 도움이 됨을 지지합니다(Majumder et al., 2019).

감정 변화

대화 과정에서 화자 내의 감정 변화를 예측하는 능력은 감정 분류와 시너지를 이룹니다. 우리의 결과에서, DialogueRNN은 감정 변화 탐지에 대해 66%의 재현율을 달성합니다. 그러나 이상적인 시나리오에서는 올바른 감정 클래스와 함께 변화를 탐지하고 싶습니다. 이 설정에서, DialogueRNN은 36.7%의 재현율을 얻습니다. 두 작업을 함께 해결하는 것의 복잡성이 더 높기 때문에 관찰된 성능 저하는 예상되는 바입니다. 미래의 방법은 감정 분류를 개선하기 위해 감정 변화 탐지 능력을 향상시켜야 합니다.

맥락적 거리

그림 4는 DialogueRNN이 감정 GRU 내에서 대상 발화와 두 번째로 가장 높은 주의를 받은 발화 사이의 거리 분포를 보여줍니다. 가장 높은 주의의 경우, 모델은 대부분 대상 발화에 가까운 발화에 집중합니다. 그러나 두 번째로 높은 주의에서는 먼 발화에 대한 의존도가 증가합니다. 또한, 역사적 및 미래의 발화에 대한 의존성이 존재하여, 양방향 모델의 활용을 장려하는 것이 흥미롭습니다.


이 연구에서는 다중 모달 다자간 대화 감정 인식을 위한 MELD 데이터셋을 소개했습니다. 이 데이터셋 구축 과정을 설명하고, 이 데이터셋에 적용된 강력한 기준 방법들로 얻은 결과를 제공했습니다. MELD는 다중 모달 처리를 위한 원본 비디오, 오디오 세그먼트, 그리고 전사본을 포함하고 있습니다. 또한, 우리는 기준 실험에 사용된 특징들도 제공합니다. 우리는 이 데이터셋이 대화형 감정 인식과 다중 모달 공감적 반응 생성을 위한 훈련 코퍼스로도 유용할 것이라고 믿습니다. 이 데이터셋을 기반으로, 향후 연구에서는 효율적인 다중 모달 융합 알고리즘의 설계, 새로운 ERC 프레임워크, 그리고 오디오, 시각, 텍스트 모달리티에서 새로운 특징 추출 등을 탐색할 수 있을 것입니다.