SubUNets: End-to-End Hand Shape und Continuous Sign Language Recognition

Wir schlagen einen neuartigen Ansatz des tiefen Lernens zur Lösung von simultanen Ausrichtungs- und Erkennungsaufgaben vor (im Folgenden als „Sequence-to-Sequence“-Lernen bezeichnet). Wir zerlegen das Problem in eine Reihe spezialisierter Expertensysteme, die als SubUNets bezeichnet werden. Die räumlich-zeitlichen Beziehungen zwischen diesen SubUNets werden anschließend modelliert, um die Aufgabe zu lösen, wobei das gesamte System dennoch end-to-end trainierbar bleibt. Der Ansatz nachahmt menschliches Lernen und pädagogische Methoden und weist eine Reihe wesentlicher Vorteile auf. Die SubUNets ermöglichen es uns, domänenspezifisches Expertenwissen in das System einzubringen, insbesondere hinsichtlich geeigneter Zwischendarstellungen. Zudem erlauben sie eine implizite Transferlernung zwischen verschiedenen miteinander verbundenen Aufgaben, was wiederum die Nutzung einer breiteren Palette an unterschiedlichen Datensourcen ermöglicht. In unseren Experimenten zeigen wir, dass jede dieser Eigenschaften die Leistung des übergeordneten Erkennungssystems erheblich verbessert, indem das Lernproblem besser eingeschränkt wird. Die vorgestellten Techniken werden im anspruchsvollen Bereich der Gebärdenspracherkennung demonstriert. Wir erreichen dabei Spitzenleistungen bei der Handformerkennung, die die bisherigen Methoden um mehr als 30 % übertrifft. Zudem gelingt es uns, vergleichbare Erkennungsraten für ganze Signale zu erzielen, ohne dass ein separater Ausrichtungsschritt erforderlich ist, um die Signale zur Erkennung zu segmentieren.