Audiovisuelle Aktivität geführte multimodale Identitätszuordnung für die Erkennung des aktiven Sprechers

Die Erkennung aktiver Sprecher in Videos befasst sich damit, ein Quellengesicht, das in den Videobildern sichtbar ist, mit der zugrunde liegenden Sprache im Audiomodus zu verknüpfen. Die beiden Hauptquellen der Informationen zur Herleitung eines solchen Sprach-Gesichts-Verhältnisses sind i) visuelle Aktivität und ihre Interaktion mit dem Sprachsignal und ii) die simultane Auftretenswahrscheinlichkeit von Sprechergesichtern über verschiedene Modi hinweg in Form von Gesichtern und Sprache. Beide Ansätze haben ihre Einschränkungen: Audiovisuelle Aktivitätsmodelle werden durch andere häufig auftretende vokale Aktivitäten wie Lachen und Kauen verwirrt, während Methoden basierend auf der Identifizierung von Sprechern nur in Videos effektiv sind, die genug deuternde Informationen enthalten, um eine Zuordnung zwischen Sprache und Gesicht herzustellen. Da die beiden Ansätze unabhängig voneinander sind, untersuchen wir in dieser Arbeit ihre komplementäre Natur. Wir schlagen einen neuen unsupervisierten Rahmen vor, um die multimodale Identitätszuordnung der Sprecher mit der audiovisuellen Aktivität für die Erkennung aktiver Sprecher zu leiten. Durch Experimente an Unterhaltungsmedien-Videos aus zwei Benchmark-Datensätzen, nämlich dem AVA Active Speaker (Filme) und dem Visual Person Clustering Dataset (Fernsehserien), zeigen wir, dass eine einfache späte Fusion der beiden Ansätze die Leistungsfähigkeit der Erkennung aktiver Sprecher verbessert.