HyperAIHyperAI
il y a 2 mois

Inst-IT : Amélioration de la compréhension multimodale des instances par le réglage explicite des instructions visuelles

Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
Inst-IT : Amélioration de la compréhension multimodale des instances par le réglage explicite des instructions visuelles
Résumé

Les grands modèles multimodaux (LMMs) ont réalisé des avancées significatives grâce à l'amélioration de l'ajustement des instructions. Cependant, bien que les modèles existants puissent comprendre les images et les vidéos à un niveau holistique, ils peinent encore à atteindre une compréhension au niveau des instances, qui nécessite une compréhension plus nuancée et une meilleure alignement. La compréhension au niveau des instances est cruciale car elle se concentre sur les éléments spécifiques qui nous intéressent le plus. De manière encourageante, des travaux récents montrent que les LMMs d'avant-garde présentent de solides capacités de compréhension au niveau des instances lorsqu'ils sont fournis avec des indices visuels explicites. Guidés par ces résultats, nous introduisons un pipeline d'annotation automatisé assisté par GPT-4o pour extraire des informations au niveau des instances à partir d'images et de vidéos grâce à la stimulation visuelle explicite pour la guidance des instances. Sur la base de ce pipeline, nous proposons Inst-IT, une solution visant à améliorer la compréhension au niveau des instances dans les LMMs par l'ajustement des instructions avec stimulation visuelle explicite. Inst-IT comprend un banc d'essai pour diagnostiquer la compréhension multimodale au niveau des instances, un jeu de données d'ajustement des instructions à grande échelle, et un paradigme de formation continue d'ajustement des instructions pour renforcer efficacement les capacités de compréhension spatiale et temporelle au niveau des instances dans les LMMs existants. Les résultats expérimentaux montrent que, grâce à l'apport d'Inst-IT, nos modèles non seulement obtiennent d'excellents résultats sur le banc d'essai Inst-IT mais également démontrent d'importantes améliorations sur diverses autres benchmarks de compréhension générique d'images et de vidéos. Cela souligne que notre jeu de données non seulement renforce la compréhension au niveau des instances mais aussi améliore globalement les capacités de compréhension générique d'images et de vidéos.

Inst-IT : Amélioration de la compréhension multimodale des instances par le réglage explicite des instructions visuelles | Articles de recherche récents | HyperAI