HyperAIHyperAI

Command Palette

Search for a command to run...

LASER: Lip Landmark Assisted Speaker Detection für Robustheit

Le Thien Phuc Nguyen Zhuoran Yu Yong Jae Lee

Zusammenfassung

Active Speaker Detection (ASD) zielt darauf ab, sprechende Personen in komplexen visuellen Szenen zu identifizieren. Während Menschen Sprache leicht durch die Übereinstimmung von Lippenbewegungen mit Audio erkennen können, stoßen aktuelle ASD-Modelle bei der Herstellung dieser Korrespondenz auf Schwierigkeiten und klassifizieren oft nicht sprechende Instanzen falsch, wenn Audio und Lippenbewegungen nicht synchron sind. Um diese Limitation zu überwinden, schlagen wir Lip landmark Assisted Speaker dEtection for Robustness (LASER) vor. Im Gegensatz zu Modellen, die ausschließlich auf Gesichtsframes basieren, konzentriert sich LASER explizit auf Lippenbewegungen, indem es Lippenlandmarken während des Trainings integriert. Konkret extrahiert LASER, gegeben einen Gesichtstrack, framebasierte visuelle Merkmale sowie die 2D-Koordinaten der Lippenlandmarken mittels eines leichten Detektors. Diese Koordinaten werden in dichte Merkmalskarten kodiert, die räumliche und strukturelle Informationen über die Lippenpositionen liefern. Da Landmarkendetektoren unter schwierigen Bedingungen (z. B. niedrige Auflösung, Verdeckung, extreme Blickwinkel) gelegentlich versagen können, integrieren wir eine Hilfskonsistenzverlustfunktion, um die Vorhersagen sowohl aus lippenbewussten als auch aus rein gesichtsbasierten Merkmalen zu alignieren und somit eine zuverlässige Leistung auch dann zu gewährleisten, wenn Lippeninformationen fehlen. Umfangreiche Experimente an mehreren Datensätzen zeigen, dass LASER state-of-the-art-Modelle übertrifft, insbesondere in Szenarien mit unsynchronisiertem Audio und Video, was eine robuste Leistung in realen Videokontexten belegt. Der Quellcode ist unter \url{https://github.com/plnguyen2908/LASER_ASD} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LASER: Lip Landmark Assisted Speaker Detection für Robustheit | Paper | HyperAI