HyperAIHyperAI

Command Palette

Search for a command to run...

OPT : Pré-entraîneur Omni-Perception pour la compréhension et la génération multimodales

Résumé

Dans cet article, nous proposons un pré-entraîneur omniperceptif (OPT) pour la compréhension et la génération multimodale, en modélisant conjointement des ressources visuelles, textuelles et audio. OPT est construit selon un cadre encodeur-décodeur, comprenant trois encodeurs unimodaux pour générer des embeddings basés sur des tokens pour chaque modalité, un encodeur multimodal pour capturer les corrélations entre les trois modalités, ainsi que deux décodeurs multimodaux pour générer respectivement du texte et des images. Pour l'entraînement préalable d'OPT, nous avons conçu un schéma d'apprentissage prétexte multitâche afin de modéliser les ressources multimodales à trois niveaux de granularité de données différents : au niveau du token, de la modalité et de l’échantillon. Ce mécanisme permet à OPT d’apprendre à aligner et à traduire entre différentes modalités. L’entraînement préalable est réalisé sur un grand volume de triplets image-texte-son provenant de la base Open Images. Les résultats expérimentaux montrent qu’OPT parvient à apprendre des représentations multimodales fortes entre images, textes et sons, et obtient des performances prometteuses sur diverses tâches de compréhension et de génération multimodales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp