3달 전

다중 모달 컨텍스트를 임베딩하는 방법 학습을 통한 위치 기반 대화형 에이전트

{Anonymous}

초록

Situated Interactive Multi-Modal Conversations (SIMMC) 2.0은 물체의 시각적 특징과 사용자 발화와 같은 복잡한 다중 모달 입력을 처리할 수 있는 가상 쇼핑 어시스턴트를 구축하는 것을 목표로 한다. 이 작업은 네 가지 하위 과제로 구성되며, 다중 모달 모호성 해소(MM-Disamb), 다중 모달 공지관계 해결(MM-Coref), 다중 모달 대화 상태 추적(MM-DST), 응답 검색 및 생성으로 이루어진다. 일반적으로 다목적 대화 시스템은 각 하위 과제를 별도로 처리하지만, 본 연구에서는 시각 정보를 통합하여 네 가지 과제를 동시에 수행할 수 있는 통합적인 다중 모달 인코더-디코더 모델을 제안한다. 이 접근법은 효율성을 높이기 위해 단일 통합 모델을 사용하여 DSTC10(제10회 대화 시스템 기술 도전 대회)에서 MM-Coref 및 응답 검색 과제에서 우승을 차지하였으며, 나머지 과제에서는 준우승을 차지하였다. 이는 다중 모달 다목적 대화 시스템이라는 새로운 분야에 있어 높은 기준을 설정한 것으로 평가된다.

벤치마크

벤치마크	방법론	지표
response-generation-on-simmc2-0	BART-base	BLEU: 29.4

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

다중 모달 컨텍스트를 임베딩하는 방법 학습을 통한 위치 기반 대화형 에이전트

{Anonymous}

초록

벤치마크

AI로 AI 구축

Hyper Newsletters