HyperAIHyperAI

Command Palette

Search for a command to run...

LRW-1000: Ein natürlicher, verteilter Großmaßstab-Benchmark für Lippenlesen in der Wildbahn

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

Groß angelegte Datensätze haben sich in mehreren Forschungsbereichen sukzessive als grundlegend wichtig erwiesen, insbesondere für die frühen Fortschritte in einigen aufstrebenden Themen. In dieser Arbeit konzentrieren wir uns auf das Problem der visuellen Spracherkennung, auch bekannt als Lippenlesung (lipreading), das in den letzten Jahren zunehmendes Interesse gefunden hat. Wir stellen einen groß angelegten Benchmark-Datensatz für die Lippenlesung im natürlichen Umfeld vor, der LRW-1000 genannt wird und 1.000 Klassen mit 718.018 Beispielen von mehr als 2.000 einzelnen Sprechern enthält. Jede Klasse entspricht den Silben eines Mandarinchinesischen Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Nach bestem Wissen ist es derzeit der größte wortbasierte Datensatz für Lippenlesung und auch der einzige öffentlich verfügbare groß angelegte Mandarinchinesische Lippenlesungsdatensatz. Dieser Datensatz zielt darauf ab, eine „natürliche“ Variabilität über verschiedene Sprechweisen und Bildaufnahmebedingungen zu erfassen, um Herausforderungen zu berücksichtigen, die in praktischen Anwendungen auftreten. Es zeigt eine große Variation in diesem Benchmark in verschiedenen Aspekten, einschließlich der Anzahl der Beispiele pro Klasse, der Videoauflösung, der Beleuchtungsbedingungen und den Eigenschaften der Sprecher wie Haltung, Alter, Geschlecht und Make-up. Neben einer detaillierten Beschreibung des Datensatzes und seines Erhebungspipelines evaluieren wir mehrere typische und beliebte Methoden der Lippenlesung und führen eine gründliche Analyse der Ergebnisse aus verschiedenen Perspektiven durch. Die Ergebnisse belegen die Konsistenz und die Herausforderungen unseres Datensatzes, was möglicherweise neue vielversprechende Richtlinien für zukünftige Arbeiten eröffnet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp