HyperAIHyperAI
il y a 2 mois

PaCE : Pré-entraînement unifié multi-modal avec des experts progressifs et compositionnels

Yunshui Li; Binyuan Hui; ZhiChao Yin; Min Yang; Fei Huang; Yongbin Li
PaCE : Pré-entraînement unifié multi-modal avec des experts progressifs et compositionnels
Résumé

La perception de l'information multimodale et la réalisation de dialogues avec les humains constituent un objectif à long terme de l'intelligence artificielle. Le pré-entraînement est généralement considéré comme une approche efficace pour le dialogue multimodal. Cependant, en raison de la disponibilité limitée des données de dialogue multimodal, les recherches sur le pré-entraînement du dialogue multimodal restent rares. Un autre défi fascinant émerge de la nature englobante du dialogue multimodal, qui implique diverses modalités et tâches. De plus, de nouvelles formes de tâches peuvent apparaître à des moments imprévisibles dans le futur. Il est donc essentiel que les modèles de dialogue multimodal conçus possèdent une flexibilité suffisante pour s'adapter à ces scénarios. Cet article propose \textbf{PaCE}, un cadre unifié, structuré et compositionnel pour le pré-entraînement du dialogue multimodal. Ce cadre utilise une combinaison d'experts fondamentaux pour répondre à plusieurs tâches liées au dialogue et peut être pré-entraîné en utilisant des données de dialogue limitées et des données multimodales non-dialogiques abondantes. De plus, nous proposons une méthode d'entraînement progressif où les anciens experts peuvent aider les nouveaux experts, facilitant ainsi l'élargissement de leurs capacités. Les résultats expérimentaux montrent que PaCE obtient des performances d'état de l'art sur huit benchmarks de dialogue multimodal.

PaCE : Pré-entraînement unifié multi-modal avec des experts progressifs et compositionnels | Articles de recherche récents | HyperAI