HyperAIHyperAI

Command Palette

Search for a command to run...

Inst-IT : Amélioration de la compréhension multimodale des instances par le réglage explicite des instructions visuelles

Wujian Peng Lingchen Meng Yitong Chen Yiweng Xie Yang Liu Tao Gui Hang Xu Xipeng Qiu Zuxuan Wu Yu-Gang Jiang

Résumé

Les grands modèles multimodaux (LMMs) ont réalisé des avancées significatives grâce à l'amélioration de l'ajustement des instructions. Cependant, bien que les modèles existants puissent comprendre les images et les vidéos à un niveau holistique, ils peinent encore à atteindre une compréhension au niveau des instances, qui nécessite une compréhension plus nuancée et une meilleure alignement. La compréhension au niveau des instances est cruciale car elle se concentre sur les éléments spécifiques qui nous intéressent le plus. De manière encourageante, des travaux récents montrent que les LMMs d'avant-garde présentent de solides capacités de compréhension au niveau des instances lorsqu'ils sont fournis avec des indices visuels explicites. Guidés par ces résultats, nous introduisons un pipeline d'annotation automatisé assisté par GPT-4o pour extraire des informations au niveau des instances à partir d'images et de vidéos grâce à la stimulation visuelle explicite pour la guidance des instances. Sur la base de ce pipeline, nous proposons Inst-IT, une solution visant à améliorer la compréhension au niveau des instances dans les LMMs par l'ajustement des instructions avec stimulation visuelle explicite. Inst-IT comprend un banc d'essai pour diagnostiquer la compréhension multimodale au niveau des instances, un jeu de données d'ajustement des instructions à grande échelle, et un paradigme de formation continue d'ajustement des instructions pour renforcer efficacement les capacités de compréhension spatiale et temporelle au niveau des instances dans les LMMs existants. Les résultats expérimentaux montrent que, grâce à l'apport d'Inst-IT, nos modèles non seulement obtiennent d'excellents résultats sur le banc d'essai Inst-IT mais également démontrent d'importantes améliorations sur diverses autres benchmarks de compréhension générique d'images et de vidéos. Cela souligne que notre jeu de données non seulement renforce la compréhension au niveau des instances mais aussi améliore globalement les capacités de compréhension générique d'images et de vidéos.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Inst-IT : Amélioration de la compréhension multimodale des instances par le réglage explicite des instructions visuelles | Articles | HyperAI