vor 8 Monaten

Zusammenfassung

Neuere Fortschritte bei der Problematik der Aktivsprechenerkennung (Active Speaker Detection, ASD) basieren auf einem zweistufigen Prozess: Merkmalsextraktion und räumlich-zeitliche Kontextaggregation. In dieser Arbeit schlagen wir einen end-to-end ASD-Arbeitsablauf vor, bei dem das Merkmalslernen und die kontextuellen Vorhersagen gemeinsam gelernt werden. Unser end-to-end trainierbares Netzwerk lernt gleichzeitig multimodale Einbettungen und aggregiert den räumlich-zeitlichen Kontext. Dies führt zu passenderen Merkmalsrepräsentationen und einer verbesserten Leistung in der ASD-Aufgabe. Wir stellen zudem verflochtene Graph-Neural-Network-Blöcke (interleaved Graph Neural Network blocks, iGNN) vor, die die Nachrichtenübermittlung nach den Hauptquellen des Kontextes im ASD-Problem aufteilen. Experimente zeigen, dass die aggregierten Merkmale aus den iGNN-Blöcken für ASD besser geeignet sind und zu einem Stand-der-Kunst-Leistungsvermögen führen. Schließlich entwickeln wir eine schwach überwachte Strategie, die zeigt, dass das ASD-Problem auch durch die Nutzung von Audiovisuellen Daten gelöst werden kann, wobei ausschließlich auf Audiodaten zur Annotation zurückgegriffen wird. Dies erreichen wir, indem wir das direkte Verhältnis zwischen dem Audiosignal und den möglichen Klangquellen (Sprechern) modellieren sowie einen kontrastiven Verlust einführen. Alle Ressourcen dieses Projekts werden unter folgender URL zur Verfügung gestellt: https://github.com/fuankarion/end-to-end-asd.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Audio- Und Sprachverarbeitung

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Audio- Und Sprachverarbeitung

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

End-to-End aktive Sprecheraufnahme

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End aktive Sprecheraufnahme

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End aktive Sprecheraufnahme

Juan León Alcázar Moritz Cordes Chen Zhao Bernard Ghanem

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters