Oscar : Pré-entraînement aligné sémantiquement objet pour les tâches vision-langage

Les méthodes de pré-entraînement à grande échelle visant à apprendre des représentations multimodales à partir de paires image-texte gagnent en popularité pour les tâches vision-langage. Alors que les approches existantes concatènent simplement les caractéristiques des régions d’image et celles du texte comme entrée du modèle à pré-entraîner, et utilisent l’attention auto-attentive pour apprendre les alignements sémantiques image-texte de manière brute, nous proposons dans cet article une nouvelle méthode d’apprentissage appelée Oscar (Object-Semantics Aligned Pre-training), qui utilise les étiquettes d’objets détectés dans les images comme points d’ancrage afin de considérablement simplifier l’apprentissage de ces alignements. Notre approche s’inspire de l’observation selon laquelle les objets saillants d’une image peuvent être détectés avec précision, et sont souvent mentionnés dans le texte associé. Nous pré-entraînons un modèle Oscar sur un corpus public comprenant 6,5 millions de paires image-texte, puis le fine-tunons sur des tâches en aval, établissant ainsi de nouveaux états de l’art sur six tâches bien établies d’understanding et de génération vision-langage.