HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes audiovisuelles Repräsentationslernen mit entspannter multimodaler Synchronizität

Pritam Sarkar Ali Etemad

Zusammenfassung

Wir präsentieren CrissCross, ein selbstüberwachtes Framework zur Lernung von audiovisuellen Repräsentationen. In unserem Framework wird ein neuer Ansatz eingeführt, bei dem neben der Lernung von innermodalen und standardmäßigen „synchronen“ multimodalen Beziehungen auch „asynchrone“ multimodale Beziehungen gelernt werden. Wir führen umfassende Studien durch, die zeigen, dass durch Lockerung der zeitlichen Synchronität zwischen den auditiven und visuellen Modalitäten das Netzwerk starke generalisierte Repräsentationen lernt, die für eine Vielzahl von nachgelagerten Aufgaben nützlich sind. Zum Vortrainieren unserer vorgeschlagenen Lösung verwenden wir 3 verschiedene Datensätze unterschiedlicher Größen: Kinetics-Sound, Kinetics400 und AudioSet. Die gelernten Repräsentationen werden anhand mehrerer nachgelagerter Aufgaben evaluiert, darunter Aktionserkennung, Klangklassifizierung und Aktionssuche. Unsere Experimente zeigen, dass CrissCross entweder bessere Ergebnisse erzielt oder sich mit den aktuellen state-of-the-art selbstüberwachten Methoden auf den Gebieten der Aktionserkennung und Aktionssuche (mit UCF101 und HMDB51) sowie der Klangklassifizierung (mit ESC50 und DCASE) vergleicht. Darüber hinaus übertrifft CrissCross das vollständig überwachte Vortrainieren, wenn es auf Kinetics-Sound vortrainiert wird. Der Quellcode und die vortrainierten Modelle sind auf der Projektwebsite verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp