Command Palette
Search for a command to run...
TalkNCE: Verbesserung der Aktivsprecherkennung durch Kontrastives Lernen unter Berücksichtigung des Sprechens
TalkNCE: Verbesserung der Aktivsprecherkennung durch Kontrastives Lernen unter Berücksichtigung des Sprechens
Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1
Zusammenfassung
Das Ziel dieser Arbeit ist die Aktivsprecherkennung (ASD), eine Aufgabe, bei der bestimmt wird, ob eine Person in einer Serie von Videobildern spricht oder nicht. Frühere Arbeiten haben sich mit dieser Aufgabe durch die Untersuchung von Netzwerkarchitekturen beschäftigt, während das Lernen effektiver Repräsentationen weniger erforscht wurde. In dieser Arbeit schlagen wir TalkNCE vor, einen neuen kontrastiven Verlust, der auf Sprechbewusstsein abgestimmt ist. Dieser Verlust wird nur auf Teilstücke des gesamten Segmente angewendet, in denen tatsächlich eine Person auf dem Bildschirm spricht. Dies fördert das Lernen effektiver Repräsentationen durch die natürliche Korrespondenz zwischen Sprache und Gesichtsbewegungen. Unser Verlust kann zusammen mit den vorhandenen Zielfunktionen zur Schulung von ASD-Modellen optimiert werden, ohne zusätzliche Überwachung oder Trainingsdaten zu benötigen. Die Experimente zeigen, dass unser Verlust leicht in die bestehenden ASD-Frameworks integriert werden kann und deren Leistung verbessert. Unsere Methode erzielt Stand-of-the-Art-Ergebnisse auf den AVA-ActiveSpeaker- und ASW-Datensätzen.