Rauschschätzung mittels Dichteschätzung für selbstüberwachtes multimodales Lernen

Ein entscheidender Faktor für die Fähigkeit von maschinellen Lernmodellen, reale Weltaufgaben zu verstehen und zu lösen, ist die Nutzung multimodaler Daten. Leider ist die Annotation multimodaler Daten herausfordernd und kostspielig. Kürzlich wurden selbstüberwachte multimodale Ansätze vorgestellt, die Vision und Sprache kombinieren, um multimodale Repräsentationen ohne Annotation zu lernen. Diese Methoden ignorieren jedoch häufig die Anwesenheit hoher Rauschanteile und erzielen dadurch suboptimale Ergebnisse. In dieser Arbeit zeigen wir, dass das Problem der Rauschschätzung für multimodale Daten auf ein multimodales Dichteschätzungproblem zurückgeführt werden kann. Unter Verwendung der multimodalen Dichteschätzung stellen wir ein Rauschschätzungsbaustein für die multimodale Repräsentationslernung vor, der ausschließlich auf den inhärenten Korrelationen zwischen den verschiedenen Modalitäten basiert. Wir demonstrieren, wie unsere Rauschschätzung breit integriert werden kann und vergleichbare Ergebnisse im Vergleich zu aktuellen Spitzenleistungen auf fünf verschiedenen Benchmark-Datensätzen für zwei anspruchsvolle multimodale Aufgaben erzielt: Video-Fragebeantwortung und Text-zu-Video-Recherche. Zudem liefern wir eine theoretische, probabilistische Fehlerschranke, die unsere empirischen Ergebnisse stützt, sowie eine Analyse von Fehlfunktionen. Code: https://github.com/elad-amrani/ssml.