HyperAIHyperAI

Command Palette

Search for a command to run...

FLAVA : un modèle fondamental d’alignement langage-vision

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

Résumé

Les modèles d’état de l’art en vision et en vision-langage s’appuient sur un pré-entraînement à grande échelle sur des données visuo-linguistiques afin d’obtenir de bonnes performances sur une variété de tâches en aval. Généralement, ces modèles sont soit croisés (par contraste), soit multi-modaux (avec une fusion précoce), mais rarement les deux à la fois ; de plus, ils ciblent souvent des modalités ou des tâches spécifiques. Une voie prometteuse consisterait à développer un seul modèle universel holistique, servant de « fondation », capable d’aborder toutes les modalités simultanément. Un véritable modèle fondamental de vision et langage devrait être performant aussi bien sur des tâches visuelles, que linguistiques, ainsi que sur des tâches croisées et multi-modales de vision-langage. Nous introduisons FLAVA comme tel un modèle, et démontrons des performances remarquables sur un large éventail de 35 tâches couvrant ces différentes modalités cibles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp