HyperAIHyperAI
il y a 2 mois

Divergence d'Information Mutuelle : Une Métrique Unifiée pour les Modèles Génératifs Multimodaux

Jin-Hwa Kim; Yunji Kim; Jiyoung Lee; Kang Min Yoo; Sang-Woo Lee
Divergence d'Information Mutuelle : Une Métrique Unifiée pour les Modèles Génératifs Multimodaux
Résumé

La génération d'images à partir de texte et la légendage d'images sont récemment apparus comme un nouveau paradigme expérimental pour évaluer l'intelligence des machines. Ces tâches prédise une quantité continue accompagnée de leurs techniques d'échantillonnage lors de la génération, ce qui rend l'évaluation complexe et difficile pour obtenir les distributions marginales. Sur la base d'une tendance récente selon laquelle les évaluations génératives multimodales exploitent un modèle pré-entraîné vision-et-langage, nous proposons une métrique unifiée appelée "negative Gaussian cross-mutual information" utilisant les caractéristiques CLIP, que nous avons dénommée Divergence d'Information Mutuelle (MID). Pour valider cette proposition, nous effectuons une comparaison approfondie avec des métriques concurrentes en utilisant des jugements soigneusement générés ou annotés par des humains dans les tâches de génération d'images à partir de texte et de légendage d'images. La MID proposée surpasse significativement les méthodes concurrentes grâce à sa cohérence entre les différents bancs d'essai, son économie d'échantillons et sa robustesse face au modèle CLIP exploité. Nous sommes impatients de voir les implications sous-représentées de l'information mutuelle croisée Gaussienne dans l'apprentissage des représentations multimodales ainsi que les travaux futurs basés sur cette nouvelle proposition.

Divergence d'Information Mutuelle : Une Métrique Unifiée pour les Modèles Génératifs Multimodaux | Articles de recherche récents | HyperAI