Ein Modell reicht nicht aus: Ensembles für die isolierte Signspracherkennung
In diesem Paper befassen wir uns mit der Signalsprachenerkennung und konzentrieren uns auf die Erkennung isolierter Signe. Die Aufgabe wird als Klassifizierungsproblem definiert, bei dem eine Folge von Bildern (d. h. Frame-Sequenzen) als einer der vorgegebenen Signale (glosses) der Signalsprache erkannt wird. Wir analysieren zwei appearancesbasierte Ansätze, I3D und TimeSformer, sowie einen posebasierten Ansatz, SPOTER. Die appearancesbasierten Ansätze werden auf mehreren unterschiedlichen Datentypen trainiert, während die Leistung von SPOTER auf verschiedenen Arten der Vorverarbeitung evaluiert wird. Alle Methoden werden auf zwei öffentlich verfügbaren Datensätzen getestet: AUTSL und WLASL300. Mittels Ensemble-Techniken erzielen wir neue State-of-the-Art-Ergebnisse mit einer Genauigkeit von 73,84 % auf dem WLASL300-Datensatz, wobei die optimalen Ensemble-Gewichtparameter mittels der CMA-ES-Optimierungsmethode gefunden werden. Zudem präsentieren wir eine auf dem Transformer-Modell basierende Ensembling-Technik, die wir Neural Ensembler nennen.