LRW-1000: Ein natürlicher, verteilter Großmaßstab-Benchmark für Lippenlesen in der Wildbahn

Groß angelegte Datensätze haben sich in mehreren Forschungsbereichen sukzessive als grundlegend wichtig erwiesen, insbesondere für die frühen Fortschritte in einigen aufstrebenden Themen. In dieser Arbeit konzentrieren wir uns auf das Problem der visuellen Spracherkennung, auch bekannt als Lippenlesung (lipreading), das in den letzten Jahren zunehmendes Interesse gefunden hat. Wir stellen einen groß angelegten Benchmark-Datensatz für die Lippenlesung im natürlichen Umfeld vor, der LRW-1000 genannt wird und 1.000 Klassen mit 718.018 Beispielen von mehr als 2.000 einzelnen Sprechern enthält. Jede Klasse entspricht den Silben eines Mandarinchinesischen Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Nach bestem Wissen ist es derzeit der größte wortbasierte Datensatz für Lippenlesung und auch der einzige öffentlich verfügbare groß angelegte Mandarinchinesische Lippenlesungsdatensatz. Dieser Datensatz zielt darauf ab, eine „natürliche“ Variabilität über verschiedene Sprechweisen und Bildaufnahmebedingungen zu erfassen, um Herausforderungen zu berücksichtigen, die in praktischen Anwendungen auftreten. Es zeigt eine große Variation in diesem Benchmark in verschiedenen Aspekten, einschließlich der Anzahl der Beispiele pro Klasse, der Videoauflösung, der Beleuchtungsbedingungen und den Eigenschaften der Sprecher wie Haltung, Alter, Geschlecht und Make-up. Neben einer detaillierten Beschreibung des Datensatzes und seines Erhebungspipelines evaluieren wir mehrere typische und beliebte Methoden der Lippenlesung und führen eine gründliche Analyse der Ergebnisse aus verschiedenen Perspektiven durch. Die Ergebnisse belegen die Konsistenz und die Herausforderungen unseres Datensatzes, was möglicherweise neue vielversprechende Richtlinien für zukünftige Arbeiten eröffnet.