HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la cognition et de l'explicabilité des modèles fondamentaux multimodaux grâce à des données auto-synthétisées

Yucheng Shi Quanzheng Li Jin Sun Xiang Li Ninghao Liu

Résumé

Les grands modèles multimodaux (LMM) ont fait preuve de capacités impressionnantes dans un large éventail de tâches visuelles. Toutefois, ils peinent souvent à réaliser un raisonnement visuel fin, en échouant à identifier des objectifs spécifiques au domaine et à fournir des explications justifiables pour leurs prédictions. Pour remédier à ce problème, nous proposons un cadre novateur de sélection par rejet visuel, visant à améliorer la cognition et la reproductibilité des LMM à l’aide de données auto-synthétisées. Plus précisément, la fine-tuning visuel nécessite des images, des requêtes et des réponses cibles. Notre approche commence par la synthèse de réponses interprétables, intégrant des caractéristiques visuelles vérifiables par l’humain. Ces caractéristiques s’appuient sur des concepts définis par des experts, soigneusement sélectionnés en fonction de leur alignement avec le contenu de l’image. Après chaque itération de fine-tuning, nous appliquons un mécanisme de filtrage exempt de modèle de récompense afin de sélectionner les réponses interprétables de meilleure qualité pour la phase suivante de réglage. Ce processus itératif de synthèse de données et de fine-tuning améliore progressivement la capacité du modèle à générer des explications précises et raisonnables. Les résultats expérimentaux démontrent l’efficacité de notre méthode pour améliorer à la fois la précision et la reproductibilité dans des tâches spécialisées de classification visuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp