HyperAIHyperAI

Command Palette

Search for a command to run...

WenLan : Pontiver la Vision et le Langage grâce au Pré-entraînement Multi-Modal à Grande Échelle

Résumé

Les modèles de pré-entraînement multi-modaux ont été largement explorés ces dernières années afin de relier vision et langage. Toutefois, la plupart de ces modèles modélisent explicitement l’interaction entre les paires image-texte, en supposant une forte corrélation sémantique entre les modalités image et texte. Étant donné que cette hypothèse forte est souvent invalide dans des scénarios du monde réel, nous avons choisi de modéliser implicitement la corrélation inter-modale pour le pré-entraînement à grande échelle multi-modale, ce qui constitue le cœur du projet chinois « WenLan », mené par notre équipe. Plus précisément, en adoptant une hypothèse de faible corrélation entre les paires image-texte, nous proposons un modèle de pré-entraînement à deux tours appelé BriVL, dans le cadre du apprentissage contrastif inter-modale. Contrairement à CLIP d’OpenAI, qui utilise une méthode de contraste simple, nous avons conçu un algorithme plus avancé en adaptant la méthode récente MoCo au contexte inter-modale. En construisant un grand dictionnaire basé sur une file d’attente, BriVL peut intégrer un plus grand nombre d’échantillons négatifs malgré des ressources GPU limitées. Nous avons également construit un grand jeu de données chinois multi-sources image-texte, baptisé RUC-CAS-WenLan, afin de pré-entraîner notre modèle BriVL. Des expériences étendues montrent que le modèle BriVL pré-entraîné dépasse à la fois UNITER et CLIP d’OpenAI sur diverses tâches en aval.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp