Übersetzung von Gebärdensprache mit iterativem Prototyp

Diese Arbeit präsentiert IP-SLT, einen einfachen jedoch wirksamen Rahmen für die Gebärdensprachübersetzung (SLT). Unser IP-SLT nutzt eine rekurrente Architektur und verbessert die semantische Darstellung (Prototyp) des Eingabegestenfilms iterativ. Unser Ansatz folgt der menschlichen Lesestrategie, bei der ein Satz mehrfach verarbeitet wird, bis ein präzises Verständnis erreicht ist. Technisch besteht IP-SLT aus drei Komponenten: Merkmalsextraktion, Prototypeninitialisierung und iterative Prototypenverbesserung. Der Initialisierungsmodul generiert den Ausgangsprototyp basierend auf den visuellen Merkmalen, die vom Merkmalsextraktionsmodul gewonnen wurden. Anschließend nutzt der iterative Verbesserungsmodul die Cross-Attention-Mechanismen, um den vorherigen Prototyp durch Aggregation mit den ursprünglichen Videomerkmalen zu verfeinern. Durch wiederholte Verbesserung konvergiert der Prototyp schließlich zu einem stabileren und genauerem Zustand, was zu einer flüssigen und angemessenen Übersetzung führt. Darüber hinaus schlagen wir eine iterative Distanzierungslösung vor, um die sequenzielle Abhängigkeit zwischen den Prototypen auszunutzen, indem das Wissen der letzten Iteration in frühere übertragen wird. Da der autoregressive Dekodierungsprozess während der Inferenz nur einmal ausgeführt wird, ist IP-SLT in der Lage, verschiedene SLT-Systeme mit akzeptablem Overhead zu verbessern. Um die Wirksamkeit von IP-SLT zu demonstrieren, wurden umfangreiche Experimente auf öffentlichen Benchmarks durchgeführt.