2달 전
PaCE: 단계적이고 구성적인 전문가를 활용한 통합 다중 모달 대화 사전 학습
Yunshui Li; Binyuan Hui; ZhiChao Yin; Min Yang; Fei Huang; Yongbin Li

초록
다중 모드 정보 인식과 인간과의 대화 수행은 인공지능의 장기적인 목표입니다. 다중 모드 대화를 위한 사전 학습은 일반적으로 효과적인 접근 방식으로 여겨집니다. 그러나 다중 모드 대화 데이터의 제한된 가용성으로 인해, 다중 모드 대화 사전 학습에 대한 연구는 아직도 부족합니다. 또한, 다중 모드 대화의 포괄적인 성격에서 새로운 도전이 나타나는데, 이는 다양한 모달리티와 작업을 포함하고 있습니다. 더욱이, 미래에는 예측할 수 없는 시점에 새로운 형태의 작업이 등장할 가능성이 있습니다. 따라서 설계된 다중 모드 대화 모델이 이러한 상황에 적응할 수 있는 충분한 유연성을 갖는 것이 필수적입니다. 본 논문에서는 \textbf{PaCE}라는 통합적이고 구조적이며 구성적인 다중 모드 대화 사전 학습 프레임워크를 제안합니다. 이 프레임워크는 여러 기본 전문가들의 조합을 사용하여 다양한 대화 관련 작업을 수용할 수 있으며, 제한된 대화 데이터와 광범위한 비대화 다중 모드 데이터를 사용하여 사전 학습될 수 있습니다. 또한 과거의 오래된 전문가들이 새로운 전문가들을 돕는 단계별 학습 방법을 제안하여, 그들의 능력을 확장하는 것을 촉진합니다. 실험 결과, PaCE는 8개의 다중 모드 대화 벤치마크에서 최고의 성능을 달성함을 보여주었습니다.