HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End aktive Sprecheraufnahme

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

Neuere Fortschritte bei der Problematik der Aktivsprechenerkennung (Active Speaker Detection, ASD) basieren auf einem zweistufigen Prozess: Merkmalsextraktion und räumlich-zeitliche Kontextaggregation. In dieser Arbeit schlagen wir einen end-to-end ASD-Arbeitsablauf vor, bei dem das Merkmalslernen und die kontextuellen Vorhersagen gemeinsam gelernt werden. Unser end-to-end trainierbares Netzwerk lernt gleichzeitig multimodale Einbettungen und aggregiert den räumlich-zeitlichen Kontext. Dies führt zu passenderen Merkmalsrepräsentationen und einer verbesserten Leistung in der ASD-Aufgabe. Wir stellen zudem verflochtene Graph-Neural-Network-Blöcke (interleaved Graph Neural Network blocks, iGNN) vor, die die Nachrichtenübermittlung nach den Hauptquellen des Kontextes im ASD-Problem aufteilen. Experimente zeigen, dass die aggregierten Merkmale aus den iGNN-Blöcken für ASD besser geeignet sind und zu einem Stand-der-Kunst-Leistungsvermögen führen. Schließlich entwickeln wir eine schwach überwachte Strategie, die zeigt, dass das ASD-Problem auch durch die Nutzung von Audiovisuellen Daten gelöst werden kann, wobei ausschließlich auf Audiodaten zur Annotation zurückgegriffen wird. Dies erreichen wir, indem wir das direkte Verhältnis zwischen dem Audiosignal und den möglichen Klangquellen (Sprechern) modellieren sowie einen kontrastiven Verlust einführen. Alle Ressourcen dieses Projekts werden unter folgender URL zur Verfügung gestellt: https://github.com/fuankarion/end-to-end-asd.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp