HyperAIHyperAI

Command Palette

Search for a command to run...

TalkNCE: Verbesserung der Aktivsprecherkennung durch Kontrastives Lernen unter Berücksichtigung des Sprechens

Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1

Zusammenfassung

Das Ziel dieser Arbeit ist die Aktivsprecherkennung (ASD), eine Aufgabe, bei der bestimmt wird, ob eine Person in einer Serie von Videobildern spricht oder nicht. Frühere Arbeiten haben sich mit dieser Aufgabe durch die Untersuchung von Netzwerkarchitekturen beschäftigt, während das Lernen effektiver Repräsentationen weniger erforscht wurde. In dieser Arbeit schlagen wir TalkNCE vor, einen neuen kontrastiven Verlust, der auf Sprechbewusstsein abgestimmt ist. Dieser Verlust wird nur auf Teilstücke des gesamten Segmente angewendet, in denen tatsächlich eine Person auf dem Bildschirm spricht. Dies fördert das Lernen effektiver Repräsentationen durch die natürliche Korrespondenz zwischen Sprache und Gesichtsbewegungen. Unser Verlust kann zusammen mit den vorhandenen Zielfunktionen zur Schulung von ASD-Modellen optimiert werden, ohne zusätzliche Überwachung oder Trainingsdaten zu benötigen. Die Experimente zeigen, dass unser Verlust leicht in die bestehenden ASD-Frameworks integriert werden kann und deren Leistung verbessert. Unsere Methode erzielt Stand-of-the-Art-Ergebnisse auf den AVA-ActiveSpeaker- und ASW-Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TalkNCE: Verbesserung der Aktivsprecherkennung durch Kontrastives Lernen unter Berücksichtigung des Sprechens | Paper | HyperAI