HyperAIHyperAI
vor 2 Monaten

Mutual Information Divergence: Eine Einheitliche Metrik für Multimodale Generative Modelle

Jin-Hwa Kim; Yunji Kim; Jiyoung Lee; Kang Min Yoo; Sang-Woo Lee
Mutual Information Divergence: Eine Einheitliche Metrik für Multimodale Generative Modelle
Abstract

Text-to-Image-Generierung und Bildunterschriftenerstellung sind kürzlich als neue experimentelle Paradigmen zur Bewertung der Maschinenintelligenz hervorgetreten. Sie prognostizieren kontinuierliche Größen, die durch ihre Stichprobenmethoden in der Generierung kompliziert und es schwierig machen, Randverteilungen zu ermitteln. Auf Basis des aktuellen Trends, dass multimoale Generierungsbeurteilungen ein vorab trainiertes Modell für Vision und Sprache nutzen, schlagen wir die negative Gaußsche Kreuz-Mutual Information unter Verwendung von CLIP-Features als einheitliches Metrik vor, das als Mutual Information Divergence (MID) bezeichnet wird. Um dies zu validieren, vergleichen wir es umfassend mit konkurrierenden Metriken unter Verwendung sorgfältig generierter oder menschlicher Annotierungen in Text-to-Image-Generierungsaufgaben und Bildunterschriftenerstellungsaufgaben. Das vorgeschlagene MID übertrifft die konkurrierenden Methoden erheblich durch Konsistenz bei Benchmarks, Stichprobenökonomie und Robustheit gegenüber dem eingesetzten CLIP-Modell. Wir freuen uns darauf, die bisher wenig beachteten Implikationen der Gaußschen Kreuz-Mutual Information im Bereich des multimoalen Repräsentationslernens sowie zukünftige Arbeiten auf dieser neuen Grundlage zu sehen.

Mutual Information Divergence: Eine Einheitliche Metrik für Multimodale Generative Modelle | Neueste Forschungsarbeiten | HyperAI