HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-UniX2 : Un cadre unifié multilingue et multimodal pour la compréhension et la génération

Bin Shan Yaqian Han Weichong Yin Shuohuan Wang Yu Sun Hao Tian Hua Wu Haifeng Wang

Résumé

Les travaux récents sur le traitement croisés linguistiques et multimodaux cherchent à étendre les modèles de pré-entraînement vision-langage (VLP) aux entrées non anglaises, obtenant des performances remarquables. Toutefois, ces modèles se concentrent uniquement sur des tâches de compréhension, en s’appuyant sur une architecture à encodeur unique. Dans cet article, nous proposons ERNIE-UniX2, un cadre unifié de pré-entraînement croisé linguistique et multimodal pour les tâches de génération comme celles de compréhension. ERNIE-UniX2 intègre plusieurs paradigmes de pré-entraînement (par exemple, l’apprentissage contrastif et le modèle de langage) basés sur une architecture encodeur-décodage, afin d’apprendre une représentation conjointe améliorée à travers les langues et les modalités. En outre, ERNIE-UniX2 peut être fine-tuné de manière fluide pour diverses tâches downstream de génération et de compréhension. Pré-entraîné sur des jeux de données multilingues uniquement textuels ainsi que sur des jeux de données image-texte, ERNIE-UniX2 atteint des résultats SOTA sur diverses tâches croisées linguistiques et multimodales de génération et de compréhension, telles que la traduction automatique multimodale et la réponse multilingue aux questions visuelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp