HyperAIHyperAI

Command Palette

Search for a command to run...

Aktive Sprecheraufnahme als Mehrzieloptimierung mit unsicherheitsbasiertem multimodalem Fusionsverfahren

Baptiste Pouthier Laurent Pilati Leela K. Gudupudi Charles Bouveyron Frederic Precioso

Zusammenfassung

Es ist mittlerweile durch verschiedene Studien gut belegt, dass die Kombination von Video- und Audiodaten bei der Erkennung aktiver Sprecher einen signifikanten Nutzen bietet. Allerdings kann jede der Modalitäten potenziell die audiovisuelle Fusion durch die Einbringung nicht verlässlicher oder täuschender Informationen irreführen. In dieser Arbeit wird die Erkennung aktiver Sprecher als ein Mehrziel-Lernproblem dargestellt, um das Beste aus jeder Modalität unter Verwendung eines neuartigen Selbst-Aufmerksamkeits-, unsicherheitsbasierten multimodalen Fusionsverfahrens zu nutzen. Die erzielten Ergebnisse zeigen, dass die vorgeschlagene Mehrziel-Lernarchitektur traditionelle Ansätze sowohl in der Verbesserung der mAP- als auch der AUC-Werte übertrifft. Wir demonstrieren zudem, dass unsere Fusionsstrategie bei der Erkennung aktiver Sprecher andere in verschiedenen Disziplinen berichtete Modalfusionsmethoden übertrifft. Schließlich zeigen wir, dass die vorgeschlagene Methode den Stand der Technik auf dem AVA-ActiveSpeaker-Datensatz erheblich verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp