Tief und kompakte Modelle für die Gestenerkennung lernen

Wir betrachten das Problem der Entwicklung eines kompakten und genauen Modells für die Gestenerkennung aus Videos im Rahmen des tiefen Lernens. Hierfür schlagen wir ein gemeinsames 3DCNN-LSTM-Modell vor, das von Anfang bis Ende trainierbar ist und sich als besser geeignet erwiesen hat, die dynamischen Informationen in Aktionen zu erfassen. Die Lösung erreicht eine Genauigkeit, die nahe an der der aktuellen Standes der Technik liegt, auf dem ChaLearn-Datensatz, wobei das Modell nur halb so groß ist. Wir untersuchen zudem Methoden zur Ableitung einer viel kompakteren Darstellung in einem Wissensdestillationsrahmen gefolgt von Modellkompression. Das endgültige Modell ist kleiner als $1~MB$, was weniger als ein Hundertstel unseres ursprünglichen Modells entspricht, mit einem Genauigkeitsverlust von $7\%$. Es eignet sich für die Echtzeit-Gestenerkennung auf mobilen Geräten.