HyperAIHyperAI

Command Palette

Search for a command to run...

PaCE : Pré-entraînement unifié multi-modal avec des experts progressifs et compositionnels

Yunshui Li Binyuan Hui Zhichao Yin Min Yang Fei Huang Yongbin Li

Résumé

La perception de l'information multimodale et la réalisation de dialogues avec les humains constituent un objectif à long terme de l'intelligence artificielle. Le pré-entraînement est généralement considéré comme une approche efficace pour le dialogue multimodal. Cependant, en raison de la disponibilité limitée des données de dialogue multimodal, les recherches sur le pré-entraînement du dialogue multimodal restent rares. Un autre défi fascinant émerge de la nature englobante du dialogue multimodal, qui implique diverses modalités et tâches. De plus, de nouvelles formes de tâches peuvent apparaître à des moments imprévisibles dans le futur. Il est donc essentiel que les modèles de dialogue multimodal conçus possèdent une flexibilité suffisante pour s'adapter à ces scénarios. Cet article propose \textbf{PaCE}, un cadre unifié, structuré et compositionnel pour le pré-entraînement du dialogue multimodal. Ce cadre utilise une combinaison d'experts fondamentaux pour répondre à plusieurs tâches liées au dialogue et peut être pré-entraîné en utilisant des données de dialogue limitées et des données multimodales non-dialogiques abondantes. De plus, nous proposons une méthode d'entraînement progressif où les anciens experts peuvent aider les nouveaux experts, facilitant ainsi l'élargissement de leurs capacités. Les résultats expérimentaux montrent que PaCE obtient des performances d'état de l'art sur huit benchmarks de dialogue multimodal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp