Command Palette
Search for a command to run...
Vers la compréhension de l'ancrage visuel dans les modèles linguistiques visuels
Vers la compréhension de l'ancrage visuel dans les modèles linguistiques visuels
Georgios Pantazopoulos Eda B. Özyiğit
Résumé
Le grounding visuel désigne la capacité d’un modèle à identifier une région dans une entrée visuelle correspondant à une description textuelle. En conséquence, un modèle doté de capacités de grounding visuel peut être appliqué à un large éventail de tâches dans divers domaines, notamment la compréhension des expressions référentielles, la réponse à des questions portant sur des détails fins dans des images ou des vidéos, la rédaction de légendes en faisant explicitement référence à des entités, ainsi que le contrôle à faible et à haut niveau dans des environnements simulés ou réels. Dans ce papier de synthèse, nous passons en revue les travaux représentatifs dans les domaines clés de la recherche sur les modèles vision-langage (VLM) généralistes modernes. Nous commençons par souligner l’importance du grounding dans les VLM, puis détaillons les composants fondamentaux du paradigme actuel de développement de modèles ancrés, avant d’examiner leurs applications pratiques, y compris les benchmarks et les métriques d’évaluation pour la génération multimodale ancrée. Nous abordons également les relations complexes entre le grounding visuel, la chaîne de raisonnement multimodale (multimodal chain-of-thought) et le raisonnement dans les VLM. Enfin, nous analysons les défis inhérents au grounding visuel et proposons des directions prometteuses pour les recherches futures.