HyperAIHyperAI

Command Palette

Search for a command to run...

Audiovisuelle Aktivität geführte multimodale Identitätszuordnung für die Erkennung des aktiven Sprechers

RAHUL SHARMA SHRIKANTH NARAYANAN

Zusammenfassung

Die Erkennung aktiver Sprecher in Videos befasst sich damit, ein Quellengesicht, das in den Videobildern sichtbar ist, mit der zugrunde liegenden Sprache im Audiomodus zu verknüpfen. Die beiden Hauptquellen der Informationen zur Herleitung eines solchen Sprach-Gesichts-Verhältnisses sind i) visuelle Aktivität und ihre Interaktion mit dem Sprachsignal und ii) die simultane Auftretenswahrscheinlichkeit von Sprechergesichtern über verschiedene Modi hinweg in Form von Gesichtern und Sprache. Beide Ansätze haben ihre Einschränkungen: Audiovisuelle Aktivitätsmodelle werden durch andere häufig auftretende vokale Aktivitäten wie Lachen und Kauen verwirrt, während Methoden basierend auf der Identifizierung von Sprechern nur in Videos effektiv sind, die genug deuternde Informationen enthalten, um eine Zuordnung zwischen Sprache und Gesicht herzustellen. Da die beiden Ansätze unabhängig voneinander sind, untersuchen wir in dieser Arbeit ihre komplementäre Natur. Wir schlagen einen neuen unsupervisierten Rahmen vor, um die multimodale Identitätszuordnung der Sprecher mit der audiovisuellen Aktivität für die Erkennung aktiver Sprecher zu leiten. Durch Experimente an Unterhaltungsmedien-Videos aus zwei Benchmark-Datensätzen, nämlich dem AVA Active Speaker (Filme) und dem Visual Person Clustering Dataset (Fernsehserien), zeigen wir, dass eine einfache späte Fusion der beiden Ansätze die Leistungsfähigkeit der Erkennung aktiver Sprecher verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp