Amélioration de la cognition et de l'explicabilité des modèles fondamentaux multimodaux grâce à des données auto-synthétisées

Les grands modèles multimodaux (LMM) ont fait preuve de capacités impressionnantes dans un large éventail de tâches visuelles. Toutefois, ils peinent souvent à réaliser un raisonnement visuel fin, en échouant à identifier des objectifs spécifiques au domaine et à fournir des explications justifiables pour leurs prédictions. Pour remédier à ce problème, nous proposons un cadre novateur de sélection par rejet visuel, visant à améliorer la cognition et la reproductibilité des LMM à l’aide de données auto-synthétisées. Plus précisément, la fine-tuning visuel nécessite des images, des requêtes et des réponses cibles. Notre approche commence par la synthèse de réponses interprétables, intégrant des caractéristiques visuelles vérifiables par l’humain. Ces caractéristiques s’appuient sur des concepts définis par des experts, soigneusement sélectionnés en fonction de leur alignement avec le contenu de l’image. Après chaque itération de fine-tuning, nous appliquons un mécanisme de filtrage exempt de modèle de récompense afin de sélectionner les réponses interprétables de meilleure qualité pour la phase suivante de réglage. Ce processus itératif de synthèse de données et de fine-tuning améliore progressivement la capacité du modèle à générer des explications précises et raisonnables. Les résultats expérimentaux démontrent l’efficacité de notre méthode pour améliorer à la fois la précision et la reproductibilité dans des tâches spécialisées de classification visuelle.