HyperAIHyperAI

Command Palette

Search for a command to run...

InfMLLM : Un cadre unifié pour les tâches visuelles et linguistiques

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

Résumé

Les modèles linguistiques à grande échelle (LLM) ont démontré leur grande polyvalence dans la gestion d’une vaste gamme d’applications centrées sur le langage. Pour étendre les capacités des LLM à un spectre plus large d’entrées multimodales, les modèles linguistiques à grande échelle multimodaux (MLLM) suscitent un intérêt croissant. Ce travail s’attaque à l’objectif d’élargir les capacités des LLM à des tâches plus complexes liées à la vision et au langage, notamment la génération de légendes d’images (image captioning), la réponse à des questions visuelles (VQA) et le repérage visuel (visual grounding). À cette fin, nous avons mis en œuvre un schéma d’entraînement en trois étapes : commençant par un pré-entraînement léger de calibration, suivi d’un entraînement hybride multitâche de poids modéré, puis un fine-tuning des LLM afin d’améliorer leur capacité à suivre les instructions. Au cours de ce processus, la consommation de mémoire GPU augmente progressivement. Afin de gérer efficacement le nombre d’embeddings visuels transmis au LLM tout en préservant leurs informations de position, nous introduisons un module d’adaptation visuelle simple, nommé pool-adapter. Nos expérimentations montrent que la préservation des informations de position des embeddings visuels via le pool-adapter s’avère particulièrement bénéfique pour des tâches comme le repérage visuel. Nous appelons notre approche proposée InfMLLM et l’avons évaluée de manière approfondie sur diverses bases de données standard. Nos résultats démontrent que InfMLLM atteint soit des performances de pointe (SOTA), soit des performances comparables à celles des MLLM récents. Le code source et le modèle seront rendus disponibles sous licence open-source à l’adresse suivante : \url{https://github.com/mightyzau/InfMLLM}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp