vor 6 Monaten

Zusammenfassung

Viele neuere Datensätze enthalten eine Vielzahl unterschiedlicher Datentypen (Modalitäten), beispielsweise Bild-, Frage- und Antwortdaten in der visuellen Fragebeantwortung (Visual Question Answering, VQA). Bei der Trainierung tiefer neuronalen Klassifizierer auf solchen multimodalen Datensätzen werden die einzelnen Modalitäten auf unterschiedlichen Skalen ausgenutzt, d. h., einige Modalitäten tragen leichter zur Klassifikationsleistung bei als andere. Dies ist suboptimal, da der Klassifizierer inhärent einer Teilmenge der Modalitäten Vorrang einräumt. Um diesen Nachteil zu mildern, schlagen wir einen neuen Regularisierungsterm vor, der auf der funktionalen Entropie basiert. Intuitiv ermutigt dieser Term dazu, die Beiträge jeder Modality zur Klassifikationsleistung auszugleichen. Die Regularisierung mittels funktionaler Entropie ist jedoch herausfordernd. Um dies zu bewältigen, entwickeln wir eine Methode, die auf der log-Sobolev-Ungleichung basiert und die funktionale Entropie durch die funktionale Fisher-Information begrenzt. Intuitiv maximiert dies die Menge an Information, die die Modalitäten gemeinsam beisteuern. Auf den beiden anspruchsvollen multimodalen Datensätzen VQA-CPv2 und SocialIQ erzielen wir state-of-the-art Ergebnisse, wobei die Modalitäten gleichmäßiger genutzt werden. Zudem zeigen wir die Wirksamkeit unserer Methode anhand des Colored MNIST-Datensatzes.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Visuelle Fragebeantwortung

Itai Gat Idan Schwartz Alexander Schwing Tamir Hazan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Visuelle Fragebeantwortung

Itai Gat Idan Schwartz Alexander Schwing Tamir Hazan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien | Paper | HyperAI

Command Palette

Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien

Itai Gat Idan Schwartz Alexander Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien

Itai Gat Idan Schwartz Alexander Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien

Itai Gat Idan Schwartz Alexander Schwing Tamir Hazan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters