AdaBrowse: Adaptiver Video-Browser für eine effiziente kontinuierliche Gebärdensprachenerkennung

Rohvideos haben sich als stark redundante Merkmale erwiesen, wobei in vielen Fällen bereits eine Teilmenge der Frames ausreicht, um eine genaue Erkennung zu ermöglichen. In dieser Arbeit untersuchen wir, ob solche Redundanzen effektiv genutzt werden können, um die Effizienz der Inferenz im kontinuierlichen Gebärdenspracherkennungssystem (CSLR) zu steigern. Wir schlagen ein neuartiges adaptives Modell (AdaBrowse) vor, das dynamisch eine informativste Teilsequenz aus Eingabevideos auswählt, indem das Problem als sequenzielle Entscheidungsaufgabe modelliert wird. Konkret nutzen wir zunächst ein leichtgewichtiges Netzwerk, um die Eingabevideos schnell zu scannen und grobe Merkmale zu extrahieren. Diese Merkmale werden anschließend in ein Politiknetzwerk eingespeist, das intelligent eine Teilsequenz zur weiteren Verarbeitung auswählt. Die ausgewählte Teilsequenz wird schließlich durch ein herkömmliches CSLR-Modell inferiert, um die Satzvorhersage zu erzielen. Da nur ein Teil der Frames in diesem Prozess verarbeitet wird, kann der Gesamtaufwand an Berechnungen erheblich reduziert werden. Neben der zeitlichen Redundanz interessieren wir uns auch dafür, ob die inhärente räumliche Redundanz nahtlos integriert werden kann, um zusätzliche Effizienz zu erreichen, beispielsweise durch dynamische Auswahl der niedrigsten Eingabauflösung für jedes einzelne Beispiel. Dieses erweiterte Modell wird als AdaBrowse+ bezeichnet. Ausführliche experimentelle Ergebnisse auf vier großen CSLR-Datensätzen – PHOENIX14, PHOENIX14-T, CSL-Daily und CSL – belegen die Wirksamkeit von AdaBrowse und AdaBrowse+. Beide Modelle erreichen eine vergleichbare Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Methoden, wobei sie eine 1,44-fach höhere Durchsatzleistung und 2,12-fach weniger FLOPs (Floating-Point Operations) benötigen. Vergleiche mit anderen gängigen 2D-CNNs und adaptiven effizienten Ansätzen bestätigen die Effektivität von AdaBrowse. Der Quellcode ist unter \url{https://github.com/hulianyuyy/AdaBrowse} verfügbar.