HyperAIHyperAI

Command Palette

Search for a command to run...

Das Verdampfen von zeitübergreifenden Kontexten für die kontinuierliche Gebärdensprachenerkennung

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Zusammenfassung

Die kontinuierliche Gebärdenspracherkennung (CSLR) zielt darauf ab, Glossen in einer Gebärdensprachvideoaufnahme zu erkennen. Moderne Ansätze weisen typischerweise zwei Module auf: ein räumliches Wahrnehmungsmodul und ein zeitliches Aggregationsmodul, die gemeinsam end-to-end trainiert werden. Bestehende Ergebnisse in [9, 20, 25, 36] deuten darauf hin, dass das räumliche Wahrnehmungsmodul – als frontales Element des Gesamtmodells zur Extraktion räumlicher Merkmale – häufig unzureichend trainiert ist. In dieser Arbeit führen wir zunächst empirische Studien durch und zeigen, dass ein flaches zeitliches Aggregationsmodul eine umfassendere Ausbildung des räumlichen Wahrnehmungsmoduls ermöglicht. Ein flaches zeitliches Aggregationsmodul kann jedoch sowohl lokale als auch globale zeitliche Kontextinformationen in der Gebärdensprache nicht ausreichend erfassen. Um dieses Dilemma zu lösen, schlagen wir ein cross-temporales Kontextaggregationsmodell (CTCA) vor. Konkret entwickeln wir ein Dual-Path-Netzwerk mit zwei Zweigen zur Wahrnehmung lokalen und globalen zeitlichen Kontextes. Darüber hinaus entwerfen wir ein Lernziel basierend auf cross-contextueller Wissensdistillation, um die beiden Kontextarten sowie sprachliche Vorwissen zu aggregieren. Die Wissensdistillation ermöglicht es dem resultierenden einbahnigen zeitlichen Aggregationsmodul, sowohl lokalen- als auch globalen zeitlichen und semantischen Kontext zu erfassen. Diese flache Struktur für die zeitliche Wahrnehmung fördert die Lernfähigkeit des räumlichen Wahrnehmungsmoduls. Umfangreiche Experimente auf anspruchsvollen CSLR-Benchmarks belegen, dass unsere Methode alle aktuellen State-of-the-Art-Verfahren übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp