vor 7 Monaten

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

Groß angelegte Datensätze haben sich in mehreren Forschungsbereichen sukzessive als grundlegend wichtig erwiesen, insbesondere für die frühen Fortschritte in einigen aufstrebenden Themen. In dieser Arbeit konzentrieren wir uns auf das Problem der visuellen Spracherkennung, auch bekannt als Lippenlesung (lipreading), das in den letzten Jahren zunehmendes Interesse gefunden hat. Wir stellen einen groß angelegten Benchmark-Datensatz für die Lippenlesung im natürlichen Umfeld vor, der LRW-1000 genannt wird und 1.000 Klassen mit 718.018 Beispielen von mehr als 2.000 einzelnen Sprechern enthält. Jede Klasse entspricht den Silben eines Mandarinchinesischen Wortes, das aus einem oder mehreren chinesischen Schriftzeichen besteht. Nach bestem Wissen ist es derzeit der größte wortbasierte Datensatz für Lippenlesung und auch der einzige öffentlich verfügbare groß angelegte Mandarinchinesische Lippenlesungsdatensatz. Dieser Datensatz zielt darauf ab, eine „natürliche“ Variabilität über verschiedene Sprechweisen und Bildaufnahmebedingungen zu erfassen, um Herausforderungen zu berücksichtigen, die in praktischen Anwendungen auftreten. Es zeigt eine große Variation in diesem Benchmark in verschiedenen Aspekten, einschließlich der Anzahl der Beispiele pro Klasse, der Videoauflösung, der Beleuchtungsbedingungen und den Eigenschaften der Sprecher wie Haltung, Alter, Geschlecht und Make-up. Neben einer detaillierten Beschreibung des Datensatzes und seines Erhebungspipelines evaluieren wir mehrere typische und beliebte Methoden der Lippenlesung und führen eine gründliche Analyse der Ergebnisse aus verschiedenen Perspektiven durch. Die Ergebnisse belegen die Konsistenz und die Herausforderungen unseres Datensatzes, was möglicherweise neue vielversprechende Richtlinien für zukünftige Arbeiten eröffnet.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LRW-1000: Ein natürlicher, verteilter Großmaßstab-Benchmark für Lippenlesen in der Wildbahn

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LRW-1000: Ein natürlicher, verteilter Großmaßstab-Benchmark für Lippenlesen in der Wildbahn

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LRW-1000: Ein natürlicher, verteilter Großmaßstab-Benchmark für Lippenlesen in der Wildbahn

Shuang Yang*1, Yuanhang Zhang*2, Dalu Feng*1,2, Mingmin Yang*4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2

Shuang Yang1, Yuanhang Zhang2, Dalu Feng1,2, Mingmin Yang4, Chenhao Wang2, Jingyun Xiao2, Keyu Long2, Shiguang Shan1,2,3, Xilin Chen1,2