HyperAIHyperAI

Command Palette

Search for a command to run...

接続主義的時系列融合を用いた手話翻訳

Meng Zheng jun; Wang Wen gang; Zha Dan; Zhou Shuo; Guo Wang

概要

連続手話翻訳(Continuous Sign Language Translation; CSLT)は、複雑な手話言語構造下において視覚ベースの動画を自然言語に翻訳することを目的とした弱教師あり問題であり、文の順序付き単語ラベルと動画内の各手話動作の正確な境界が対応しないという特徴を持つ。本稿では、時系列畳み込みモジュール(TCOV)、双方向ゲート付き再帰ユニットモジュール(BGRU)、および統合層モジュール(FL)から構成されるハイブリッド深層アーキテクチャを提案する。TCOVは隣接するクリップ特徴における短時間の時系列遷移(局所パターン)を捉えるのに対し、BGRUは時間軸にわたる長期間の文脈遷移(グローバルパターン)を保持する。FLはTCOVとBGRUの特徴埋め込みを連結することで、両者の補完的関係(相互パターン)を学習する。このように、各モジュールの利点を活かすために、統合的時系列統合(Joint Connectionist Temporal Fusion; CTF)機構を提案する。さらに、一回の学習で実現可能な新しいJoint CTC損失最適化と、深層分類スコアに基づくデコーディング統合戦略を設計し、性能向上を図っている。本手法は、ベンチマークデータセットであるRWTH-PHOENIX-Weatherデータセット上での実験により検証され、従来の複数回のEM反復を要する手法と比較して同等以上の性能を達成することが示された。これにより、提案手法の有効性が実証された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています