HyperAIHyperAI

Command Palette

Search for a command to run...

Divergence d'Information Mutuelle : Une Métrique Unifiée pour les Modèles Génératifs Multimodaux

Jin-Hwa Kim* Yunji Kim Jiyoung Lee Kang Min Yoo Sang-Woo Lee

Résumé

La génération d'images à partir de texte et la légendage d'images sont récemment apparus comme un nouveau paradigme expérimental pour évaluer l'intelligence des machines. Ces tâches prédise une quantité continue accompagnée de leurs techniques d'échantillonnage lors de la génération, ce qui rend l'évaluation complexe et difficile pour obtenir les distributions marginales. Sur la base d'une tendance récente selon laquelle les évaluations génératives multimodales exploitent un modèle pré-entraîné vision-et-langage, nous proposons une métrique unifiée appelée "negative Gaussian cross-mutual information" utilisant les caractéristiques CLIP, que nous avons dénommée Divergence d'Information Mutuelle (MID). Pour valider cette proposition, nous effectuons une comparaison approfondie avec des métriques concurrentes en utilisant des jugements soigneusement générés ou annotés par des humains dans les tâches de génération d'images à partir de texte et de légendage d'images. La MID proposée surpasse significativement les méthodes concurrentes grâce à sa cohérence entre les différents bancs d'essai, son économie d'échantillons et sa robustesse face au modèle CLIP exploité. Nous sommes impatients de voir les implications sous-représentées de l'information mutuelle croisée Gaussienne dans l'apprentissage des représentations multimodales ainsi que les travaux futurs basés sur cette nouvelle proposition.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp