HyperAIHyperAI

Command Palette

Search for a command to run...

MAAS: Multimodale Zuordnung für die Erkennung aktiver Sprecher

Juan León Alcázar Fabian Caba Heilbron Ali K. Thabet Bernard Ghanem

Zusammenfassung

Die Erkennung aktiver Sprecher erfordert eine solide Integration multimodaler Hinweise. Obwohl einzelne Modalitäten eine Lösung annähern können, können genaue Vorhersagen erst durch die explizite Fusion von audiomalen und visuellen Merkmalen sowie die Modellierung ihrer zeitlichen Entwicklung erreicht werden. Trotz der inhärent multimodalen Natur des Problems konzentrieren sich aktuelle Methoden noch auf die Modellierung und Fusion kurzfristiger audiovisueller Merkmale für einzelne Sprecher, oft auf Frame-Ebene. In dieser Arbeit präsentieren wir einen neuen Ansatz zur Erkennung aktiver Sprecher, der direkt das multimodale Wesen des Problems anspricht und eine einfache Strategie bietet, bei der unabhängige visuelle Merkmale von potentiellen Sprechern in der Szene einem zuvor detektierten Sprachereignis zugeordnet werden. Unsere Experimente zeigen, dass eine kleine Graphendatenstruktur, die aus einem einzelnen Frame gebaut wird, es ermöglicht, ein instantanes Problem der Audio-Visuellen Zuordnung zu approximieren. Darüber hinaus erreicht die zeitliche Erweiterung dieses anfänglichen Graphen einen neuen Stand der Technik im AVA-ActiveSpeaker-Datensatz mit einem mAP von 88,8 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp