HyperAIHyperAI

Command Palette

Search for a command to run...

EquiAV: Nutzung von Äquivarianz für audio-visuelle kontrastive Lernverfahren

Jongsuk Kim Hyeongkeun Lee Kyeongha Rho Junmo Kim Joon Son Chung

Zusammenfassung

Neuere Fortschritte im selbstüberwachten audio-visuellen Repräsentationslernen haben dessen Potenzial zur Erfassung reicher und umfassender Darstellungen gezeigt. Dennoch ist es der audio-visuellen Lernansätze bisher schwergefallen, die Vorteile von Datenaugmentation vollständig auszunutzen, da Augmentierungen die Korrespondenz zwischen Eingabepaaren leicht stören können. Um diese Einschränkung zu überwinden, stellen wir EquiAV vor, einen innovativen Rahmen, der Äquivalenz für das audio-visuelle kontrastive Lernen nutzt. Unser Ansatz erweitert Äquivalenz erstmals auf das audio-visuelle Lernen und wird durch einen gemeinsamen, auf Aufmerksamkeit basierenden Transformationsvorhersager ermöglicht. Dieser erlaubt die Aggregation von Merkmalen aus verschiedenen Augmentierungen zu einer repräsentativen Einbettung und liefert dabei robuste Supervision. Besonders hervorzuheben ist, dass dies mit minimalen zusätzlichen Rechenkosten erreicht wird. Umfassende Ablationsstudien und qualitative Ergebnisse bestätigen die Wirksamkeit unseres Verfahrens. EquiAV übertrifft bei verschiedenen audio-visuellen Benchmarks die bisherigen Ansätze. Der Quellcode ist unter https://github.com/JongSuk1/EquiAV verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EquiAV: Nutzung von Äquivarianz für audio-visuelle kontrastive Lernverfahren | Paper | HyperAI