HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 12 jours

Injection de raisonnement directionnel pour le fine-tuning des MLLM

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

Résumé

Les modèles de langage à grande échelle multimodaux (MLLM) évoluent rapidement, mais leur capacité de raisonnement peine souvent à rattraper celle des modèles textuels purs performants. Les méthodes existantes visant à combler cet écart reposent sur un fine-tuning supervisé sur de vastes jeux de données multimodaux de raisonnement, ou sur l’apprentissage par renforcement, deux approches exigeant des ressources importantes. Une alternative prometteuse est la fusion de modèles, qui consiste à interpoler les paramètres entre des LLM améliorés en raisonnement et leurs variantes multimodales. Toutefois, notre analyse montre qu’une fusion naïve n’est pas toujours une solution « à coût nul » : son efficacité varie fortement selon les familles de modèles, certaines (comme LLaVA, Idefics) en tirant profit, tandis que d’autres (comme Qwen) subissent une dégradation des performances. Pour remédier à ce problème, nous proposons DRIFT (Directional Reasoning Injection for Fine-Tuning), une méthode légère permettant de transférer les connaissances de raisonnement dans l’espace des gradients, sans perturber l’alignement multimodal. DRIFT prédétermine un prior de raisonnement comme différence entre les espaces de paramètres des versions raisonnantes et multimodales, puis utilise ce prior pour biaiser les gradients lors du fine-tuning multimodal. Cette approche préserve la simplicité des pipelines de fine-tuning supervisé classiques tout en permettant un transfert efficace du raisonnement. Des expériences étendues sur des benchmarks de raisonnement multimodal, notamment MathVista et MathVerse, démontrent que DRIFT améliore de manière cohérente les performances de raisonnement par rapport à la fusion naïve et au fine-tuning supervisé, tout en égalant ou dépassant les méthodes exigeant un entraînement intensif, à un coût réduit d’un ordre de grandeur.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Injection de raisonnement directionnel pour le fine-tuning des MLLM | Articles de recherche | HyperAI