HyperAIHyperAI
il y a 2 mois

Groma : Tokenisation visuelle localisée pour l’ancrage des grands modèles langagiers multimodaux

Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
Groma : Tokenisation visuelle localisée pour l’ancrage des grands modèles langagiers multimodaux
Résumé

Nous présentons Groma, un Modèle Linguistique Multimodal de Grande Taille (MLLM) doté d'une capacité de perception visuelle ancrée et détaillée. Au-delà de la compréhension globale des images, Groma excelle dans les tâches au niveau régional telles que la légendage de régions et le positionnement visuel. Ces capacités sont fondées sur un mécanisme de tokenisation visuelle localisée, où une entrée d'image est décomposée en régions d'intérêt puis encodée en tokens régionaux. En intégrant ces tokens régionaux aux instructions utilisateur et aux réponses du modèle, nous permettons à Groma de comprendre les entrées régionales spécifiées par l'utilisateur et d'ancrer sa sortie textuelle aux images. De plus, pour améliorer la capacité de chat ancré de Groma, nous avons créé un ensemble de données d'instructions ancrées visuellement en utilisant les puissantes techniques de GPT-4V et de prompting visuel. Comparativement aux MLLMs qui s'appuient sur le modèle linguistique ou un module externe pour la localisation, Groma montre constamment des performances supérieures dans les benchmarks standard de référence et d'ancrage, soulignant les avantages de l'intégration de la localisation dans la tokenisation des images.Page du projet : https://groma-mllm.github.io/.

Groma : Tokenisation visuelle localisée pour l’ancrage des grands modèles langagiers multimodaux | Articles de recherche récents | HyperAI