il y a 11 jours

Shikra : Libérer le pouvoir magique du dialogue référentiel des LLM multimodaux

Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao

Résumé

Dans les conversations humaines, les individus peuvent indiquer des régions pertinentes au sein d’une scène tout en s’adressant à autrui. À leur tour, les interlocuteurs peuvent répondre en faisant référence à des régions spécifiques si nécessaire. Cette capacité naturelle à établir des références dans le dialogue reste absente dans les modèles actuels de grands langages multimodaux (MLLM). Pour combler cet écart, ce papier présente un MLLM appelé Shikra, capable de traiter des entrées et sorties en coordonnées spatiales sous forme de langage naturel. Son architecture se compose d’un encodeur visuel, d’une couche d’alignement et d’un modèle de langage à grande échelle (LLM). Conçu pour être simple et direct, il ne nécessite ni vocabulaire supplémentaire, ni encodeur de position, ni modules de détection préalable ou postérieure, ni modèles externes plug-in. Toutes les entrées et sorties sont exprimées sous forme de langage naturel. Le dialogue référentiel constitue un ensemble général contenant diverses tâches vision-langage (VL). Shikra peut naturellement gérer des tâches liées à la localisation telles que REC et PointQA, ainsi que des tâches VL classiques comme la génération de légendes d’images (Image Captioning) et la question-réponse visuelle (VQA). Les résultats expérimentaux démontrent les performances prometteuses de Shikra. En outre, il ouvre la voie à de nombreuses applications passionnantes, telles que l’ajout des coordonnées des objets mentionnés dans les chaînes de raisonnement, ou la comparaison de similarité entre des régions pointées par l’utilisateur. Le code, le modèle et le jeu de données sont disponibles à l’adresse suivante : https://github.com/shikras/shikra.