LASER: Lip Landmark Assisted Speaker Detection für Robustheit

Active Speaker Detection (ASD) zielt darauf ab, sprechende Personen in komplexen visuellen Szenen zu identifizieren. Während Menschen Sprache leicht durch die Übereinstimmung von Lippenbewegungen mit Audio erkennen können, stoßen aktuelle ASD-Modelle bei der Herstellung dieser Korrespondenz auf Schwierigkeiten und klassifizieren oft nicht sprechende Instanzen falsch, wenn Audio und Lippenbewegungen nicht synchron sind. Um diese Limitation zu überwinden, schlagen wir Lip landmark Assisted Speaker dEtection for Robustness (LASER) vor. Im Gegensatz zu Modellen, die ausschließlich auf Gesichtsframes basieren, konzentriert sich LASER explizit auf Lippenbewegungen, indem es Lippenlandmarken während des Trainings integriert. Konkret extrahiert LASER, gegeben einen Gesichtstrack, framebasierte visuelle Merkmale sowie die 2D-Koordinaten der Lippenlandmarken mittels eines leichten Detektors. Diese Koordinaten werden in dichte Merkmalskarten kodiert, die räumliche und strukturelle Informationen über die Lippenpositionen liefern. Da Landmarkendetektoren unter schwierigen Bedingungen (z. B. niedrige Auflösung, Verdeckung, extreme Blickwinkel) gelegentlich versagen können, integrieren wir eine Hilfskonsistenzverlustfunktion, um die Vorhersagen sowohl aus lippenbewussten als auch aus rein gesichtsbasierten Merkmalen zu alignieren und somit eine zuverlässige Leistung auch dann zu gewährleisten, wenn Lippeninformationen fehlen. Umfangreiche Experimente an mehreren Datensätzen zeigen, dass LASER state-of-the-art-Modelle übertrifft, insbesondere in Szenarien mit unsynchronisiertem Audio und Video, was eine robuste Leistung in realen Videokontexten belegt. Der Quellcode ist unter \url{https://github.com/plnguyen2908/LASER_ASD} verfügbar.