Eine Studie über Faltungsarchitekturen zur Handformerkennung im Kontext von Gebärdensprache

Convolutional Neural Networks haben in den letzten Jahren in vielen Bereichen eine Leistungssteigerung ermöglicht, doch ihre Leistungsfähigkeit für die Handformerkennung im Kontext der Gebärdenspracherkennung wurde bisher noch nicht umfassend untersucht. Um die Eignung verschiedener convolutionaler Architekturen für dieses Problem zu bewerten, führten wir eine Reihe von Experimenten durch.Anhand der Datensätze LSA16 und RWTH-PHOENIX-Weather testeten wir die Architekturen LeNet, VGG16, ResNet-34 sowie eine rein convolutionale Architektur, zudem Inception sowohl mit herkömmlichem Training als auch mittels Transfer Learning, und verglichen die Ergebnisse mit dem Stand der Technik auf diesen Datensätzen. Als Baseline diente zudem ein Feedforward-Neuronales Netzwerk. Zudem untersuchten wir verschiedene Vorverarbeitungsschemata, um deren Einfluss auf die Erkennungsleistung zu analysieren.Unsere Ergebnisse zeigen, dass alle Modelle auf beiden Datensätzen eine durchaus gute Leistung erzielen (mit Ergebnissen vergleichbar mit handgestalteten Methoden), wobei VGG16 die besten Resultate lieferte, dicht gefolgt von der klassischen LeNet-Architektur. Zudem zeigte sich, dass die vorherige Segmentierung der Hände von der Hintergrundumgebung eine erhebliche Verbesserung der Genauigkeit bewirkt.