MIntRec: 다중 모드 의도 인식을 위한 새로운 데이터셋

다중모달 의도 인식은 실제 다중모달 환경에서 인간 언어를 이해하는 데 중요한 과제입니다. 기존의 대부분 의도 인식 방법들은 벤치마크 데이터셋이 텍스트 정보만을 포함하고 있어 다중모달 정보 활용에 제한이 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 다중모달 의도 인식 데이터셋(MIntRec)을 소개합니다. 이 데이터셋은 TV 시리즈 'Superstore'에서 수집된 데이터를 바탕으로 대략적 및 세부 의도 분류 체계를 구축하였습니다. MIntRec는 텍스트, 비디오, 오디오 모달성을 포함하는 2,224개의 고품질 샘플로 구성되어 있으며, 20개의 의도 카테고리에 대한 다중모달 주석을 제공합니다. 또한, 각 비디오 세그먼트의 발화자 경계 상자를 주석 처리하였으며, 이를 자동화하여 발화자 주석 과정을 수행하였습니다. MIntRec는 연구자가 다른 모달성 간의 관계를 탐구하여 의도 인식 능력을 강화하는 데 도움이 됩니다. 우리는 각 모달성에서 특징을 추출하고, 세 가지 강력한 다중모달 융합 방법을 적용하여 교차 모달 상호작용을 모델링하여 기준선을 구축하였습니다. 광범위한 실험 결과, 비언어적 모달성을 활용함으로써 텍스트만 사용하는 경우보다 실질적인 개선이 이루어졌음을 보여주며, 이는 다중모달 정보를 사용하여 의도 인식의 효과성을 입증합니다. 최고 성능 방법과 인간 사이의 차이는 이 과제가 커뮤니티에게 얼마나 도전적이고 중요한지를 나타냅니다. 전체 데이터셋과 코드는 https://github.com/thuiar/MIntRec에서 이용 가능합니다.