HyperAIHyperAI

Command Palette

Search for a command to run...

Infinity-MM : Amélioration des performances multimodales grâce à des données d'instruction de grande échelle et de haute qualité

Résumé

Les modèles vision-langage (VLMs) ont récemment connu des progrès significatifs, mais l'échelle limitée et la qualité insuffisante des données d'instruction open source entravent leur performance par rapport aux modèles closed source. Dans cette étude, nous abordons cette limitation en introduisant Infinity-MM, un jeu de données multimodal à grande échelle comprenant 40 millions d'échantillons, amélioré grâce à un filtrage rigoureux de la qualité et une déduplication stricte. Nous proposons également une méthode de génération d'instructions synthétiques basée sur des VLMs open source, utilisant des annotations d'images détaillées et une génération de questions diversifiée. En utilisant ces données, nous avons formé un VLM doté de 2 milliards de paramètres, Aquila-VL-2B, qui atteint des performances de pointe (SOTA) pour les modèles de taille similaire. Cela démontre que l'élargissement des données d'instruction et la génération de données synthétiques peuvent considérablement améliorer les performances des modèles open source.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp