Dichte zeitliche Faltungsnetzwerk für die Gebärdensprachübersetzung

Die Übersetzung von Gebärdensprache (SLT), die darauf abzielt, ein Gebärdensprachvideo in natürliche Sprache zu übersetzen, ist schwach beschriftet, da zwischen den visuellen Aktionen und den Textwörtern in einer Satzbezeichnung keine exakte Abbildungsbeziehung besteht. Um die Gebärdensprachaktionen zu alignen und sie automatisch in die entsprechenden Wörter zu übersetzen, schlägt dieser Artikel ein dichtes zeitliches Faltungsnetzwerk vor, das als DenseTCN bezeichnet wird und Aktionen auf hierarchischer Ebene erfasst. Innerhalb dieses Netzwerks wird eine zeitliche Faltung (TC) entworfen, um die kurzfristigen Korrelationen zwischen benachbarten Merkmalen zu lernen und anschließend zu einer dichten hierarchischen Struktur erweitert. In der $k^\mathrm{th}$ TC-Schicht integrieren wir die Ausgaben aller vorhergehenden Schichten: (1) Die TC in einer tieferen Schicht verfügt grundsätzlich über größere Rezeptivfelder, wodurch sie langfristige zeitliche Kontextinformationen durch hierarchische Inhaltsübergänge erfassen kann. (2) Die Integration löst das SLT-Problem durch verschiedene Perspektiven, einschließlich eingebetteter kurzfristiger und erweiterter langfristiger sequentieller Lernprozesse. Schließlich verwenden wir die CTC-Verlustfunktion und eine Fusionsstrategie, um die merkmalsweise Klassifikation zu lernen und den übersetzten Satz zu generieren. Die experimentellen Ergebnisse auf zwei etablierten Gebärdensprachen-Benchmarks, nämlich PHOENIX und USTC-ConSents, belegen die Wirksamkeit des vorgeschlagenen Ansatzes hinsichtlich verschiedener Bewertungsmaße.