HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement en chaîne de pensée multimodale dans les modèles de langage

Zhuosheng Zhang* Aston Zhang* Mu Li Hai Zhao George Karypis Alex Smola

Résumé

Les grands modèles de langage (LLMs) ont montré des performances impressionnantes dans le raisonnement complexe en utilisant la méthode d'incitation par chaîne de pensée (chain-of-thought, CoT) pour générer des chaînes de raisonnement intermédiaires comme justification pour inférer la réponse. Cependant, les études existantes sur CoT se sont principalement concentrées sur la modalité linguistique. Nous proposons Multimodal-CoT, une approche qui intègre les modalités linguistiques (texte) et visuelles (images) dans un cadre en deux étapes séparant la génération de justifications et l'inférence de réponses. De cette manière, l'inférence des réponses peut bénéficier de justifications mieux générées basées sur des informations multimodales. Les résultats expérimentaux sur les jeux de données de référence ScienceQA et A-OKVQA démontrent l'efficacité de notre approche proposée. Avec Multimodal-CoT, notre modèle doté de moins d'un milliard de paramètres atteint des performances d'état de l'art sur le benchmark ScienceQA. Notre analyse indique que Multimodal-CoT offre les avantages d'atténuer les hallucinations et d'accélérer la vitesse de convergence. Le code est disponible au public sur https://github.com/amazon-science/mm-cot.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp