HyperAIHyperAI
vor 17 Tagen

Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien

Itai Gat, Idan Schwartz, Alexander Schwing, Tamir Hazan
Entfernung von Bias in multimodalen Klassifizierern: Regularisierung durch Maximierung funktionaler Entropien
Abstract

Viele neuere Datensätze enthalten eine Vielzahl unterschiedlicher Datentypen (Modalitäten), beispielsweise Bild-, Frage- und Antwortdaten in der visuellen Fragebeantwortung (Visual Question Answering, VQA). Bei der Trainierung tiefer neuronalen Klassifizierer auf solchen multimodalen Datensätzen werden die einzelnen Modalitäten auf unterschiedlichen Skalen ausgenutzt, d. h., einige Modalitäten tragen leichter zur Klassifikationsleistung bei als andere. Dies ist suboptimal, da der Klassifizierer inhärent einer Teilmenge der Modalitäten Vorrang einräumt. Um diesen Nachteil zu mildern, schlagen wir einen neuen Regularisierungsterm vor, der auf der funktionalen Entropie basiert. Intuitiv ermutigt dieser Term dazu, die Beiträge jeder Modality zur Klassifikationsleistung auszugleichen. Die Regularisierung mittels funktionaler Entropie ist jedoch herausfordernd. Um dies zu bewältigen, entwickeln wir eine Methode, die auf der log-Sobolev-Ungleichung basiert und die funktionale Entropie durch die funktionale Fisher-Information begrenzt. Intuitiv maximiert dies die Menge an Information, die die Modalitäten gemeinsam beisteuern. Auf den beiden anspruchsvollen multimodalen Datensätzen VQA-CPv2 und SocialIQ erzielen wir state-of-the-art Ergebnisse, wobei die Modalitäten gleichmäßiger genutzt werden. Zudem zeigen wir die Wirksamkeit unserer Methode anhand des Colored MNIST-Datensatzes.