Audiovisuelle Instanzdiskriminierung mit modalitätsübergreifender Übereinstimmung

Wir präsentieren einen Ansatz des selbstüberwachten Lernens zur Gewinnung von audiovisuellen Repräsentationen aus Video und Audio. Unsere Methode verwendet kontrastives Lernen für die modalkreuzende Diskriminierung von Video und Audio und umgekehrt. Wir zeigen, dass die Optimierung der modalkreuzenden Diskriminierung im Vergleich zur innermodalen Diskriminierung entscheidend ist, um gute Repräsentationen aus Video und Audio zu lernen. Aufgrund dieses einfachen, aber mächtigen Erkenntnisses erreicht unsere Methode bei der Feinabstimmung auf Aufgaben der Aktionserkennung eine hochwettbewerbsfähige Leistung. Darüber hinaus erweitern wir in unserer Arbeit die Definition von positiven und negativen Beispielen im kontrastiven Lernen, indem wir die modalkreuzende Übereinstimmung erforschen. Wir gruppieren mehrere Instanzen als Positivbeispiele zusammen, indem wir ihre Ähnlichkeit sowohl im Videos- als auch im Audioraum messen. Die modalkreuzende Übereinstimmung ermöglicht es uns, bessere Positive- und Negative-Sätze zu erstellen, was uns wiederum erlaubt, visuelle Ähnlichkeiten durch die innermodale Diskriminierung positiver Instanzen zu kalibrieren und signifikante Verbesserungen bei nachgeschalteten Aufgaben zu erzielen.