9日前

SubUNets:エンドツーエンド型手の形状および連続日本語手話認識

{Oscar Koller, Simon Hadfield, Richard Bowden, Necati Cihan Camgoz}
SubUNets:エンドツーエンド型手の形状および連続日本語手話認識
要約

我々は、同時アライメントと認識問題(「シーケンス・トゥ・シーケンス」学習と呼ばれる)を解決するための新たな深層学習アプローチを提案する。本手法では、問題を「SubUNet」と呼ばれる専門的なエキスパートシステムの系列に分解する。これらのSubUNet間の空間時間的関係をモデル化することでタスクを解決しつつ、エンド・トゥ・エンドで訓練可能な構造を維持している。このアプローチは人間の学習および教育法を模倣しており、いくつかの重要な利点を有している。SubUNetを用いることで、適切な中間表現に関するドメイン特有の専門知識をシステムに組み込むことが可能となる。また、関連する異なるタスク間での暗黙的な転移学習(transfer learning)を実現でき、より多様なデータソースを活用することが可能となる。実験の結果、これらの特性が学習問題の制約をより厳密にすることで、全体的な認識性能を顕著に向上させることを示した。提案手法は、手話認識という困難な領域において検証され、従来手法を30%以上上回る手形認識の最先端性能を達成した。さらに、従来の研究と同等の手話認識率を達成しつつ、認識のための符号を分離するためのアライメントステップを必要としなかった。