HyperAIHyperAI

Command Palette

Search for a command to run...

Groma : Tokenisation visuelle localisée pour l’ancrage des grands modèles langagiers multimodaux

Chuofan Ma Yi Jiang Jiannan Wu Zehuan Yuan Xiaojuan Qi

Résumé

Nous présentons Groma, un Modèle Linguistique Multimodal de Grande Taille (MLLM) doté d'une capacité de perception visuelle ancrée et détaillée. Au-delà de la compréhension globale des images, Groma excelle dans les tâches au niveau régional telles que la légendage de régions et le positionnement visuel. Ces capacités sont fondées sur un mécanisme de tokenisation visuelle localisée, où une entrée d'image est décomposée en régions d'intérêt puis encodée en tokens régionaux. En intégrant ces tokens régionaux aux instructions utilisateur et aux réponses du modèle, nous permettons à Groma de comprendre les entrées régionales spécifiées par l'utilisateur et d'ancrer sa sortie textuelle aux images. De plus, pour améliorer la capacité de chat ancré de Groma, nous avons créé un ensemble de données d'instructions ancrées visuellement en utilisant les puissantes techniques de GPT-4V et de prompting visuel. Comparativement aux MLLMs qui s'appuient sur le modèle linguistique ou un module externe pour la localisation, Groma montre constamment des performances supérieures dans les benchmarks standard de référence et d'ancrage, soulignant les avantages de l'intégration de la localisation dans la tokenisation des images.Page du projet : https://groma-mllm.github.io/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp