TalkNCE: Verbesserung der Aktivsprecherkennung durch Kontrastives Lernen unter Berücksichtigung des Sprechens

Das Ziel dieser Arbeit ist die Aktivsprecherkennung (ASD), eine Aufgabe, bei der bestimmt wird, ob eine Person in einer Serie von Videobildern spricht oder nicht. Frühere Arbeiten haben sich mit dieser Aufgabe durch die Untersuchung von Netzwerkarchitekturen beschäftigt, während das Lernen effektiver Repräsentationen weniger erforscht wurde. In dieser Arbeit schlagen wir TalkNCE vor, einen neuen kontrastiven Verlust, der auf Sprechbewusstsein abgestimmt ist. Dieser Verlust wird nur auf Teilstücke des gesamten Segmente angewendet, in denen tatsächlich eine Person auf dem Bildschirm spricht. Dies fördert das Lernen effektiver Repräsentationen durch die natürliche Korrespondenz zwischen Sprache und Gesichtsbewegungen. Unser Verlust kann zusammen mit den vorhandenen Zielfunktionen zur Schulung von ASD-Modellen optimiert werden, ohne zusätzliche Überwachung oder Trainingsdaten zu benötigen. Die Experimente zeigen, dass unser Verlust leicht in die bestehenden ASD-Frameworks integriert werden kann und deren Leistung verbessert. Unsere Methode erzielt Stand-of-the-Art-Ergebnisse auf den AVA-ActiveSpeaker- und ASW-Datensätzen.