FLAVA : un modèle fondamental d’alignement langage-vision

Les modèles d’état de l’art en vision et en vision-langage s’appuient sur un pré-entraînement à grande échelle sur des données visuo-linguistiques afin d’obtenir de bonnes performances sur une variété de tâches en aval. Généralement, ces modèles sont soit croisés (par contraste), soit multi-modaux (avec une fusion précoce), mais rarement les deux à la fois ; de plus, ils ciblent souvent des modalités ou des tâches spécifiques. Une voie prometteuse consisterait à développer un seul modèle universel holistique, servant de « fondation », capable d’aborder toutes les modalités simultanément. Un véritable modèle fondamental de vision et langage devrait être performant aussi bien sur des tâches visuelles, que linguistiques, ainsi que sur des tâches croisées et multi-modales de vision-langage. Nous introduisons FLAVA comme tel un modèle, et démontrons des performances remarquables sur un large éventail de 35 tâches couvrant ces différentes modalités cibles.