Aktive Sprecheraufnahme als Mehrzieloptimierung mit unsicherheitsbasiertem multimodalem Fusionsverfahren

Es ist mittlerweile durch verschiedene Studien gut belegt, dass die Kombination von Video- und Audiodaten bei der Erkennung aktiver Sprecher einen signifikanten Nutzen bietet. Allerdings kann jede der Modalitäten potenziell die audiovisuelle Fusion durch die Einbringung nicht verlässlicher oder täuschender Informationen irreführen. In dieser Arbeit wird die Erkennung aktiver Sprecher als ein Mehrziel-Lernproblem dargestellt, um das Beste aus jeder Modalität unter Verwendung eines neuartigen Selbst-Aufmerksamkeits-, unsicherheitsbasierten multimodalen Fusionsverfahrens zu nutzen. Die erzielten Ergebnisse zeigen, dass die vorgeschlagene Mehrziel-Lernarchitektur traditionelle Ansätze sowohl in der Verbesserung der mAP- als auch der AUC-Werte übertrifft. Wir demonstrieren zudem, dass unsere Fusionsstrategie bei der Erkennung aktiver Sprecher andere in verschiedenen Disziplinen berichtete Modalfusionsmethoden übertrifft. Schließlich zeigen wir, dass die vorgeschlagene Methode den Stand der Technik auf dem AVA-ActiveSpeaker-Datensatz erheblich verbessert.