9日前

手話翻訳のための高密度時系列畳み込みネットワーク

{Dan Guo; Shuo Wang; Qi Tian;Meng Wang}
手話翻訳のための高密度時系列畳み込みネットワーク
要約

手話翻訳(SLT)は、手話動画を自然言語に変換することを目的としているが、文ラベルにおける視覚的動作と語彙の間に正確な対応関係が存在しないため、弱教師付き学習の枠組みで行われている。本研究では、手話動作と対応する語彙を自動的に一致させるために、階層的な視点から動作を捉えることを目的とした、密な時系列畳み込みネットワーク(DenseTCN)を提案する。本ネットワーク内では、隣接する特徴量間の短期的相関を学習するための時系列畳み込み(TC)を設計し、これを密な階層構造へと拡張している。k番目のTC層では、すべての前の層の出力を統合する。その理由として、(1)より深い層におけるTCは本質的に大きな受容 field を持つため、階層的なコンテンツ遷移によって長期的な時系列的文脈を捉えることができる。(2)統合された構造により、埋め込みされた短期的学習と拡張された長期的逐次学習という異なる視点からSLT問題に対処できる。最終的に、CTC損失関数と特徴量統合戦略を採用することで、特徴量ごとの分類を学習し、翻訳された文を生成する。PHOENIXおよびUSTC-ConSentsという2つの代表的な手話ベンチマークデータセットを用いた実験結果から、提案手法が多様な評価指標において高い有効性を示していることが確認された。