BSL-1K: Skalierung der ko-artikulierten Gebärdensprachenerkennung mithilfe von Mundbewegungsmerkmalen

Neuere Fortschritte in der feinkörnigen Gesten- und Aktionserkennung sowie in der maschinellen Übersetzung deuten darauf hin, dass eine automatisierte Gebärdenspracherkennung zunehmend realisierbar wird. Ein zentrales Hindernis für den Fortschritt in diese Richtung ist jedoch das Fehlen geeigneter Trainingsdaten, das sich aus der hohen Komplexität der Gebärdenanmerkung und der begrenzten Verfügbarkeit qualifizierter Annotatoren ergibt. In dieser Arbeit stellen wir einen neuen skalierbaren Ansatz zur Datensammlung für die Gebärdenerkennung in kontinuierlichen Videos vor. Wir nutzen schwach alignierte Untertitel aus Fernsehübertragungen gemeinsam mit einer Schlüsselworterkennungsmethode, um automatisch Gebärdenvorkommen für ein Vokabular von 1.000 Zeichen in 1.000 Stunden Videomaterial zu lokalisieren. Unsere Beiträge sind folgende: (1) Wir zeigen, wie man Mundbewegungen von Gebärdensprechern nutzt, um hochwertige Anmerkungen aus Videodaten zu gewinnen – das Ergebnis ist die BSL-1K-Datenbank, eine Sammlung britischer Gebärdensprache (BSL) von bisher unerreichter Skalierung; (2) Wir demonstrieren, dass man BSL-1K nutzen kann, um leistungsstarke Modelle zur Gebärdenerkennung ko-artikulierter Zeichen in BSL zu trainieren, die zudem hervorragend als Vortraining für andere Gebärdensprachen und Benchmarks geeignet sind – wir überbieten dabei den Stand der Technik sowohl auf den MSASL- als auch auf den WLASL-Benchmarks. Schließlich (3) schlagen wir neue großskalige Evaluierungssätze für die Aufgaben der Gebärdenerkennung und der Gebärdenspotting vor und stellen Baselines bereit, die wir hoffen, werden die Forschung in diesem Bereich anregen.