HyperAIHyperAI
il y a 2 mois

Améliorer la puissance des petits modèles de raisonnement multimodal pour les faire correspondre aux modèles plus grands grâce à l'entraînement par auto-cohérence

Cheng Tan; Jingxuan Wei; Zhangyang Gao; Linzhuang Sun; Siyuan Li; Ruifeng Guo; Bihui Yu; Stan Z. Li
Améliorer la puissance des petits modèles de raisonnement multimodal pour les faire correspondre aux modèles plus grands grâce à l'entraînement par auto-cohérence
Résumé

Le raisonnement multimodal est une tâche complexe qui nécessite que les modèles puissent raisonner à travers plusieurs modalités pour répondre aux questions. Les approches existantes ont fait des progrès en intégrant les modalités linguistiques et visuelles dans un cadre de raisonnement en deux étapes, séparant la génération des justifications de l'inférence des réponses. Cependant, ces approches échouent souvent en raison de la qualité insuffisante des justifications générées. Dans cette étude, nous nous penchons sur l'importance des justifications dans le raisonnement des modèles. Nous constatons que lorsque les justifications sont entièrement précises, la précision du modèle s'améliore considérablement, soulignant ainsi la nécessité d'une génération de haute qualité des justifications. Inspirés par cette observation, nous proposons MC-CoT, une stratégie d'entraînement par cohérence interne qui génère plusieurs justifications et réponses, puis sélectionne la plus précise par un processus de vote. Cette approche non seulement améliore la qualité des justifications générées, mais conduit également à des réponses plus précises et robustes. À travers une série d'expériences exhaustives, nous démontrons que notre approche améliore significativement les performances du modèle sur diverses基准 (benchmarks). De manière remarquable, nous montrons que même les modèles de base plus petits, lorsqu'ils sont équipés de notre approche proposée, peuvent obtenir des résultats comparables à ceux des modèles plus grands, illustrant le potentiel de notre méthode pour tirer parti des justifications afin d'améliorer le raisonnement multimodal. Le code est disponible sur https://github.com/chengtan9907/mc-cot.注:在“diverses基准”中,“基准”是中文,可能是原文中的一个错误。正确的翻译应该是“diverses benchmarks”。为了保持译文的准确性,我在这里进行了修正。

Améliorer la puissance des petits modèles de raisonnement multimodal pour les faire correspondre aux modèles plus grands grâce à l'entraînement par auto-cohérence | Articles de recherche récents | HyperAI