HyperAIHyperAI

Command Palette

Search for a command to run...

Oscar : Pré-entraînement aligné sémantiquement objet pour les tâches vision-langage

Résumé

Les méthodes de pré-entraînement à grande échelle visant à apprendre des représentations multimodales à partir de paires image-texte gagnent en popularité pour les tâches vision-langage. Alors que les approches existantes concatènent simplement les caractéristiques des régions d’image et celles du texte comme entrée du modèle à pré-entraîner, et utilisent l’attention auto-attentive pour apprendre les alignements sémantiques image-texte de manière brute, nous proposons dans cet article une nouvelle méthode d’apprentissage appelée Oscar (Object-Semantics Aligned Pre-training), qui utilise les étiquettes d’objets détectés dans les images comme points d’ancrage afin de considérablement simplifier l’apprentissage de ces alignements. Notre approche s’inspire de l’observation selon laquelle les objets saillants d’une image peuvent être détectés avec précision, et sont souvent mentionnés dans le texte associé. Nous pré-entraînons un modèle Oscar sur un corpus public comprenant 6,5 millions de paires image-texte, puis le fine-tunons sur des tâches en aval, établissant ainsi de nouveaux états de l’art sur six tâches bien établies d’understanding et de génération vision-langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp