MAAS: Multimodale Zuordnung für die Erkennung aktiver Sprecher

Die Erkennung aktiver Sprecher erfordert eine solide Integration multimodaler Hinweise. Obwohl einzelne Modalitäten eine Lösung annähern können, können genaue Vorhersagen erst durch die explizite Fusion von audiomalen und visuellen Merkmalen sowie die Modellierung ihrer zeitlichen Entwicklung erreicht werden. Trotz der inhärent multimodalen Natur des Problems konzentrieren sich aktuelle Methoden noch auf die Modellierung und Fusion kurzfristiger audiovisueller Merkmale für einzelne Sprecher, oft auf Frame-Ebene. In dieser Arbeit präsentieren wir einen neuen Ansatz zur Erkennung aktiver Sprecher, der direkt das multimodale Wesen des Problems anspricht und eine einfache Strategie bietet, bei der unabhängige visuelle Merkmale von potentiellen Sprechern in der Szene einem zuvor detektierten Sprachereignis zugeordnet werden. Unsere Experimente zeigen, dass eine kleine Graphendatenstruktur, die aus einem einzelnen Frame gebaut wird, es ermöglicht, ein instantanes Problem der Audio-Visuellen Zuordnung zu approximieren. Darüber hinaus erreicht die zeitliche Erweiterung dieses anfänglichen Graphen einen neuen Stand der Technik im AVA-ActiveSpeaker-Datensatz mit einem mAP von 88,8 %.