Command Palette
Search for a command to run...
InfMLLM : Un cadre unifié pour les tâches visuelles et linguistiques
InfMLLM : Un cadre unifié pour les tâches visuelles et linguistiques
Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi
Résumé
Les modèles linguistiques à grande échelle (LLM) ont démontré leur grande polyvalence dans la gestion d’une vaste gamme d’applications centrées sur le langage. Pour étendre les capacités des LLM à un spectre plus large d’entrées multimodales, les modèles linguistiques à grande échelle multimodaux (MLLM) suscitent un intérêt croissant. Ce travail s’attaque à l’objectif d’élargir les capacités des LLM à des tâches plus complexes liées à la vision et au langage, notamment la génération de légendes d’images (image captioning), la réponse à des questions visuelles (VQA) et le repérage visuel (visual grounding). À cette fin, nous avons mis en œuvre un schéma d’entraînement en trois étapes : commençant par un pré-entraînement léger de calibration, suivi d’un entraînement hybride multitâche de poids modéré, puis un fine-tuning des LLM afin d’améliorer leur capacité à suivre les instructions. Au cours de ce processus, la consommation de mémoire GPU augmente progressivement. Afin de gérer efficacement le nombre d’embeddings visuels transmis au LLM tout en préservant leurs informations de position, nous introduisons un module d’adaptation visuelle simple, nommé pool-adapter. Nos expérimentations montrent que la préservation des informations de position des embeddings visuels via le pool-adapter s’avère particulièrement bénéfique pour des tâches comme le repérage visuel. Nous appelons notre approche proposée InfMLLM et l’avons évaluée de manière approfondie sur diverses bases de données standard. Nos résultats démontrent que InfMLLM atteint soit des performances de pointe (SOTA), soit des performances comparables à celles des MLLM récents. Le code source et le modèle seront rendus disponibles sous licence open-source à l’adresse suivante : \url{https://github.com/mightyzau/InfMLLM}.