6ヶ月前

概要

ディープラーニングの連続手話認識（CSLR）における最近の成功にもかかわらず、従来のディープモデルは主に判別力の高い特徴に注目しがちであり、他の潜在的に重要な情報量を持つコンテンツを無視する傾向がある。このような特性は、異なる視覚的特徴（例：手の形、表情、身体の姿勢）の協調関係の背後にある暗黙の視覚的文法を学習する能力を著しく制限している。本研究では、ニューラルネットワーク設計にマルチキューモデル学習を組み込むことで、視覚ベースの時系列学習問題に対処するための空間時系列マルチキューモデル（STMC）ネットワークを提案する。本STMCネットワークは、空間マルチキューモジュール（SMCモジュール）と時系列マルチキューモジュール（TMCモジュール）から構成される。SMCモジュールは空間表現に特化し、自己完結型のポーズ推定ブランチを活用して、異なる視覚的キューモデルの特徴を明示的に分解する。TMCモジュールは、内部キューモデル間（intra-cue）および外部キューモデル間（inter-cue）の二つの並列パスを通じて時系列相関をモデル化し、各キューモデルの独自性を保持するとともに、複数のキューモデル間の協調性を探索することを目的とする。さらに、STMCネットワークのエンド・ツー・エンド時系列学習を実現するため、共同最適化戦略を設計した。有効性の検証として、PHOENIX-2014、CSL、PHOENIX-2014-Tの3つの大規模CSLRベンチマーク上で実験を行った。実験結果から、提案手法がいずれのベンチマークにおいても新たな最良性能（SOTA）を達成することが明らかになった。

ソースPDF