Command Palette
Search for a command to run...
OFA : Unification des architectures, des tâches et des modalités à travers un cadre d'apprentissage simple de séquence à séquence
OFA : Unification des architectures, des tâches et des modalités à travers un cadre d'apprentissage simple de séquence à séquence
Peng Wang An Yang Rui Men Junyang Lin Shuai Bai Zhikang Li Jianxin Ma Chang Zhou Jingren Zhou Hongxia Yang
Résumé
Dans cette étude, nous poursuivons un paradigme unifié pour l'entraînement préalable multimodal afin de briser les cadres d'adaptation spécifique à des tâches ou modalités complexes. Nous proposons OFA, un cadre indépendant des tâches et des modalités qui soutient la compréhensivité des tâches. OFA unifie une variété de tâches inter-modales et intra-modales, y compris la génération d'images, l'ancrage visuel, la légendage d'images, la classification d'images, le modèle de langage, etc., dans un cadre simple d'apprentissage séquence-à-séquence. OFA suit l'apprentissage basé sur les instructions à la fois lors de l'entraînement préalable et de l'affinage (finetuning), sans nécessiter de couches supplémentaires spécifiques aux tâches pour les tâches en aval. Comparativement aux modèles récents de vision et de langage de pointe qui s'appuient sur des jeux de données inter-modaux extrêmement vastes, OFA est entraîné préalablement sur seulement 20 millions de paires image-texte publiquement disponibles. Malgré sa simplicité et son ensemble de données d'entraînement relativement petit, OFA atteint de nouveaux états de l'art (SOTAs) dans une série de tâches inter-modales tout en obtenant des performances hautement compétitives sur les tâches intra-modales. Notre analyse ultérieure montre que OFA peut également transférer efficacement vers des tâches inconnues et des domaines inconnus. Notre code et nos modèles sont librement accessibles à l'adresse https://github.com/OFA-Sys/OFA.