HyperAIHyperAI

Command Palette

Search for a command to run...

Shikra : Libérer le pouvoir magique du dialogue référentiel des LLM multimodaux

Keqin Chen Zhao Zhang Weili Zeng Richong Zhang Feng Zhu Rui Zhao

Résumé

Dans les conversations humaines, les individus peuvent indiquer des régions pertinentes au sein d’une scène tout en s’adressant à autrui. À leur tour, les interlocuteurs peuvent répondre en faisant référence à des régions spécifiques si nécessaire. Cette capacité naturelle à établir des références dans le dialogue reste absente dans les modèles actuels de grands langages multimodaux (MLLM). Pour combler cet écart, ce papier présente un MLLM appelé Shikra, capable de traiter des entrées et sorties en coordonnées spatiales sous forme de langage naturel. Son architecture se compose d’un encodeur visuel, d’une couche d’alignement et d’un modèle de langage à grande échelle (LLM). Conçu pour être simple et direct, il ne nécessite ni vocabulaire supplémentaire, ni encodeur de position, ni modules de détection préalable ou postérieure, ni modèles externes plug-in. Toutes les entrées et sorties sont exprimées sous forme de langage naturel. Le dialogue référentiel constitue un ensemble général contenant diverses tâches vision-langage (VL). Shikra peut naturellement gérer des tâches liées à la localisation telles que REC et PointQA, ainsi que des tâches VL classiques comme la génération de légendes d’images (Image Captioning) et la question-réponse visuelle (VQA). Les résultats expérimentaux démontrent les performances prometteuses de Shikra. En outre, il ouvre la voie à de nombreuses applications passionnantes, telles que l’ajout des coordonnées des objets mentionnés dans les chaînes de raisonnement, ou la comparaison de similarité entre des régions pointées par l’utilisateur. Le code, le modèle et le jeu de données sont disponibles à l’adresse suivante : https://github.com/shikras/shikra.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp