HyperAIHyperAI
il y a 2 mois

Raisonnement en chaîne de pensée multimodale dans les modèles de langage

Zhuosheng Zhang; Aston Zhang; Mu Li; Hai Zhao; George Karypis; Alex Smola
Raisonnement en chaîne de pensée multimodale dans les modèles de langage
Résumé

Les grands modèles de langage (LLMs) ont montré des performances impressionnantes dans le raisonnement complexe en utilisant la méthode d'incitation par chaîne de pensée (chain-of-thought, CoT) pour générer des chaînes de raisonnement intermédiaires comme justification pour inférer la réponse. Cependant, les études existantes sur CoT se sont principalement concentrées sur la modalité linguistique. Nous proposons Multimodal-CoT, une approche qui intègre les modalités linguistiques (texte) et visuelles (images) dans un cadre en deux étapes séparant la génération de justifications et l'inférence de réponses. De cette manière, l'inférence des réponses peut bénéficier de justifications mieux générées basées sur des informations multimodales. Les résultats expérimentaux sur les jeux de données de référence ScienceQA et A-OKVQA démontrent l'efficacité de notre approche proposée. Avec Multimodal-CoT, notre modèle doté de moins d'un milliard de paramètres atteint des performances d'état de l'art sur le benchmark ScienceQA. Notre analyse indique que Multimodal-CoT offre les avantages d'atténuer les hallucinations et d'accélérer la vitesse de convergence. Le code est disponible au public sur https://github.com/amazon-science/mm-cot.

Raisonnement en chaîne de pensée multimodale dans les modèles de langage | Articles de recherche récents | HyperAI