Command Palette
Search for a command to run...

초록
Situated Interactive Multi-Modal Conversations (SIMMC) 2.0은 물체의 시각적 특징과 사용자의 발화와 같은 복잡한 다중 모달 입력을 처리할 수 있는 가상 쇼핑 어시스턴트를 구현하는 것을 목표로 한다. 이 작업은 네 가지 하위 과제로 구성된다: 다중 모달 모호성 해소(MM-Disamb), 다중 모달 공명 해결(MM-Coref), 다중 모달 대화 상태 추적(MM-DST), 응답 검색 및 생성이다. 일반적으로 다목적 대화 시스템은 각 하위 과제를 별도로 처리하지만, 본 연구에서는 시각 정보를 포함하는 통합적인 다중 모달 인코더-디코더를 공동 학습하여 효율성을 높이기 위해 모든 네 가지 과제를 동시에 수행하는 방법을 제안한다. 이 접근 방식은 제10회 대화 시스템 기술 챌린지(DSTC10)에서 단일 통합 모델로 MM-Coref 및 응답 검색 과제에서 우승을 차지했으며, 나머지 과제에서는 준우승을 차지하며, 다중 모달 다목적 대화 시스템이라는 새로운 분야에 높은 기준을 설정하였다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| dialogue-state-tracking-on-simmc2-0 | BART-base | Act F1: 95.2 Slot F1: 82.0 |
| dialogue-state-tracking-on-simmc2-0 | BART-large | Act F1: 96.3 Slot F1: 88.3 |
| response-generation-on-simmc2-0 | BART-large | BLEU: 33.1 |