HyperAIHyperAI

Command Palette

Search for a command to run...

Mutual Information Divergence: Eine Einheitliche Metrik für Multimodale Generative Modelle

Jin-Hwa Kim* Yunji Kim Jiyoung Lee Kang Min Yoo Sang-Woo Lee

Zusammenfassung

Text-to-Image-Generierung und Bildunterschriftenerstellung sind kürzlich als neue experimentelle Paradigmen zur Bewertung der Maschinenintelligenz hervorgetreten. Sie prognostizieren kontinuierliche Größen, die durch ihre Stichprobenmethoden in der Generierung kompliziert und es schwierig machen, Randverteilungen zu ermitteln. Auf Basis des aktuellen Trends, dass multimoale Generierungsbeurteilungen ein vorab trainiertes Modell für Vision und Sprache nutzen, schlagen wir die negative Gaußsche Kreuz-Mutual Information unter Verwendung von CLIP-Features als einheitliches Metrik vor, das als Mutual Information Divergence (MID) bezeichnet wird. Um dies zu validieren, vergleichen wir es umfassend mit konkurrierenden Metriken unter Verwendung sorgfältig generierter oder menschlicher Annotierungen in Text-to-Image-Generierungsaufgaben und Bildunterschriftenerstellungsaufgaben. Das vorgeschlagene MID übertrifft die konkurrierenden Methoden erheblich durch Konsistenz bei Benchmarks, Stichprobenökonomie und Robustheit gegenüber dem eingesetzten CLIP-Modell. Wir freuen uns darauf, die bisher wenig beachteten Implikationen der Gaußschen Kreuz-Mutual Information im Bereich des multimoalen Repräsentationslernens sowie zukünftige Arbeiten auf dieser neuen Grundlage zu sehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mutual Information Divergence: Eine Einheitliche Metrik für Multimodale Generative Modelle | Paper | HyperAI