il y a 11 jours

OPT : Pré-entraîneur Omni-Perception pour la compréhension et la génération multimodales

Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Hanqing Lu, Shiyu Zhou, Jiajun Zhang, Jinqiao Wang

Voir les détails de l'article

OPT : Pré-entraîneur Omni-Perception pour la compréhension et la génération multimodales

Résumé

Dans cet article, nous proposons un pré-entraîneur omniperceptif (OPT) pour la compréhension et la génération multimodale, en modélisant conjointement des ressources visuelles, textuelles et audio. OPT est construit selon un cadre encodeur-décodeur, comprenant trois encodeurs unimodaux pour générer des embeddings basés sur des tokens pour chaque modalité, un encodeur multimodal pour capturer les corrélations entre les trois modalités, ainsi que deux décodeurs multimodaux pour générer respectivement du texte et des images. Pour l'entraînement préalable d'OPT, nous avons conçu un schéma d'apprentissage prétexte multitâche afin de modéliser les ressources multimodales à trois niveaux de granularité de données différents : au niveau du token, de la modalité et de l’échantillon. Ce mécanisme permet à OPT d’apprendre à aligner et à traduire entre différentes modalités. L’entraînement préalable est réalisé sur un grand volume de triplets image-texte-son provenant de la base Open Images. Les résultats expérimentaux montrent qu’OPT parvient à apprendre des représentations multimodales fortes entre images, textes et sons, et obtient des performances prometteuses sur diverses tâches de compréhension et de génération multimodales.