7일 전

상황 인식 대화형 에이전트를 위한 다중 모달 컨텍스트 임베딩 학습

{Kee-Eung Kim, Kangwook Lee, Haebin Shin, Youngjune Lee, Jinhyeon Kim, Yoonhyung Kim, Ran Han, Minho Park, Yunseon Choi, Oh Joon Kwon, Haeju Lee}
상황 인식 대화형 에이전트를 위한 다중 모달 컨텍스트 임베딩 학습
초록

Situated Interactive Multi-Modal Conversations (SIMMC) 2.0은 물체의 시각적 특징과 사용자의 발화와 같은 복잡한 다중 모달 입력을 처리할 수 있는 가상 쇼핑 어시스턴트를 구현하는 것을 목표로 한다. 이 작업은 네 가지 하위 과제로 구성된다: 다중 모달 모호성 해소(MM-Disamb), 다중 모달 공명 해결(MM-Coref), 다중 모달 대화 상태 추적(MM-DST), 응답 검색 및 생성이다. 일반적으로 다목적 대화 시스템은 각 하위 과제를 별도로 처리하지만, 본 연구에서는 시각 정보를 포함하는 통합적인 다중 모달 인코더-디코더를 공동 학습하여 효율성을 높이기 위해 모든 네 가지 과제를 동시에 수행하는 방법을 제안한다. 이 접근 방식은 제10회 대화 시스템 기술 챌린지(DSTC10)에서 단일 통합 모델로 MM-Coref 및 응답 검색 과제에서 우승을 차지했으며, 나머지 과제에서는 준우승을 차지하며, 다중 모달 다목적 대화 시스템이라는 새로운 분야에 높은 기준을 설정하였다.

상황 인식 대화형 에이전트를 위한 다중 모달 컨텍스트 임베딩 학습 | 최신 연구 논문 | HyperAI초신경