HyperAIHyperAI
vor 15 Tagen

EquiAV: Nutzung von Äquivarianz für audio-visuelle kontrastive Lernverfahren

Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung
EquiAV: Nutzung von Äquivarianz für audio-visuelle kontrastive Lernverfahren
Abstract

Neuere Fortschritte im selbstüberwachten audio-visuellen Repräsentationslernen haben dessen Potenzial zur Erfassung reicher und umfassender Darstellungen gezeigt. Dennoch ist es der audio-visuellen Lernansätze bisher schwergefallen, die Vorteile von Datenaugmentation vollständig auszunutzen, da Augmentierungen die Korrespondenz zwischen Eingabepaaren leicht stören können. Um diese Einschränkung zu überwinden, stellen wir EquiAV vor, einen innovativen Rahmen, der Äquivalenz für das audio-visuelle kontrastive Lernen nutzt. Unser Ansatz erweitert Äquivalenz erstmals auf das audio-visuelle Lernen und wird durch einen gemeinsamen, auf Aufmerksamkeit basierenden Transformationsvorhersager ermöglicht. Dieser erlaubt die Aggregation von Merkmalen aus verschiedenen Augmentierungen zu einer repräsentativen Einbettung und liefert dabei robuste Supervision. Besonders hervorzuheben ist, dass dies mit minimalen zusätzlichen Rechenkosten erreicht wird. Umfassende Ablationsstudien und qualitative Ergebnisse bestätigen die Wirksamkeit unseres Verfahrens. EquiAV übertrifft bei verschiedenen audio-visuellen Benchmarks die bisherigen Ansätze. Der Quellcode ist unter https://github.com/JongSuk1/EquiAV verfügbar.

EquiAV: Nutzung von Äquivarianz für audio-visuelle kontrastive Lernverfahren | Neueste Forschungsarbeiten | HyperAI