11일 전

대화 내 감정 인식을 위한 한국 드라마 장면 전사 데이터셋

{Hyerim Jang, Young-Shin Kang, Soo-Hyung Kim, Guee-Sang Lee, Hyung-Jeong Yang, Eunchae Lim, Sudarshan Pant}
초록

대화 속 감정을 이해하는 것은 문장이 일반적으로 고립된 상태에서는 잘 이해되지 않는 암시적 의미를 포함하고 있기 때문에 도전적인 과제이다. 대화에서 감정을 인식하기 위해서는 맥락 정보를 효율적으로 활용하는 것이 필수적이다. 현재 공개된 많은 데이터셋은 텍스트 기반 온라인 메시징, 챗봇, 영화 대사와 같은 상황에 대한 맥락 정보를 제공하고 있다. 그러나 이러한 대화 기반 데이터셋은 이상적인 대화 상황을 선별하여 수집한 것이므로, 대화의 길이나 참여자 수의 다양성은 포함되어 있지 않다. 따라서 이러한 데이터셋은 화자 수와 발화 문장 길이가 다양하게 변하는 텍스트 기반 영화 대사에서의 감정 인식에 적합하지 않을 수 있다. 본 연구에서는 한국 TV 드라마 대사 텍스트를 기반으로 한 대화 데이터셋을 제안하여 장면 맥락이 존재하는 상황에서 감정을 분석한다. 감정 인식을 위한 한국 드라마 장면 대사 텍스트 데이터셋(KD-EmoR)은 텍스트 기반 대화 데이터셋으로, TV 드라마 장면에서 복잡한 감정의 세 가지 유형—희화(기쁨), 비화(우울), 중립—을 분석하여 향후 연구를 위한 공개 데이터셋을 구축하였다. 또한 화자 수준의 맥락과 장면 맥락을 고려한 맥락 인지형 딥러닝 모델을 개발하여 제안된 데이터셋에서 F1 스코어 0.63을 달성하였다.

대화 내 감정 인식을 위한 한국 드라마 장면 전사 데이터셋 | 최신 연구 논문 | HyperAI초신경