Egocentrische Tiefenmulti-Kanal-Audiovisuelle Aktive Sprecherm定位 请注意,最后一个词“Localization”在德语中应为“Lokalisierung”。因此,正确的翻译应该是: Egocentrische Tiefenmulti-Kanal-Audiovisuelle Aktive Sprecherlokalisierung

Erweiterte Realitätseinrichtungen haben das Potenzial, die menschliche Wahrnehmung zu verbessern und in komplexen konversationellen Umgebungen andere assistive Funktionen zu ermöglichen. Die effektive Erfassung des audiovisuellen Kontextes, der für das Verständnis dieser sozialen Interaktionen notwendig ist, erfordert zunächst die Erkennung und Lokalisierung der Sprachaktivitäten des Trägers der Einrichtung sowie der umliegenden Personen. Diese Aufgaben sind aufgrund ihrer egozentrischen Natur herausfordernd: Kopfbewegungen des Trägers können Bewegungsunschärfe verursachen, umliegende Personen können unter schwierigen Betrachtungswinkeln erscheinen, und es kann zu Verdeckungen, visuellem Durcheinander, Audionoise und schlechter Beleuchtung kommen. Unter diesen Bedingungen liefern bisherige Stand-der-Technik-Methoden zur Aktivsprecherkennung nicht zufriedenstellende Ergebnisse. Stattdessen greifen wir das Problem in einer neuen Einstellung an, indem wir sowohl Video als auch Audio von mehrkanaligen Mikrofonarrays verwenden. Wir schlagen einen neuen end-to-end tiefen Lernansatz vor, der robuste Ergebnisse für die Erkennung und Lokalisierung von Sprachaktivitäten liefern kann. Im Gegensatz zu früheren Methoden lokalisiert unsere Methode aktive Sprecher aus allen möglichen Richtungen auf der Kugeloberfläche, sogar außerhalb des Kamerasichtfeldes, während sie gleichzeitig die eigene Sprachaktivität des Geräte trägers erkennt. Unsere Experimente zeigen, dass die vorgeschlagene Methode überlegene Ergebnisse liefert, in Echtzeit betrieben werden kann und robust gegenüber Noise und Durcheinander ist.