Multimodale Fusion mittels Lehrer-Schüler-Netzwerk für die Anerkennung von Innenraumaktionen
Die Erkennung von Innenraumaktionen spielt eine wichtige Rolle in der modernen Gesellschaft, beispielsweise im Bereich intelligenter Gesundheitsversorgung in großen mobilen Klinikcontainern. Mit der zunehmenden Verbreitung von Tiefensensoren wie Kinect bietet die Kombination multimodaler Informationen – insbesondere von Skelett- und RGB-Daten – eine vielversprechende Möglichkeit, die Leistungsfähigkeit zu steigern. Allerdings konzentrieren sich bestehende Methoden entweder auf eine einzelne Datensmodality oder nutzen die Vorteile mehrerer Modalitäten nicht ausreichend. In diesem Artikel stellen wir ein Teacher-Student Multimodal Fusion (TSMF)-Modell vor, das die Skelett- und RGB-Modalitäten auf Modell-Ebene für die Erkennung von Innenraumaktionen fusioniert. In unserem TSMF nutzt ein Lehrernetzwerk, um strukturelles Wissen aus der Skelettmodality auf ein Schüler-Netzwerk für die RGB-Modality zu übertragen. Ausführliche Experimente an zwei Standard-Datensätzen – NTU RGB+D und PKU-MMD – zeigen, dass das vorgeschlagene TSMF konsistent besser abschneidet als aktuelle state-of-the-art-Methoden, sowohl bei Einzelmodalitäten als auch bei multimodalen Ansätzen. Zudem belegt dies, dass unser TSMF nicht nur die Genauigkeit des Schüler-Netzwerks verbessert, sondern auch die Genauigkeit von Ensembles erheblich steigert.