
要約
本研究は、深層ニューラルネットワークを用いた連続手話(SL)認識フレームワークを構築し、手話文の映像を順序付きの gloss ラベル列へ直接変換する手法を提案する。従来の連続手話認識手法は、時間的情報を捉える能力に限界のある隠れマルコフモデル(HMM)を主に用いていた。これに対して、本研究で提案するアーキテクチャは、特徴抽出モジュールとしてスタックされた時系列融合層を備えた深層畳み込みニューラルネットワーク(CNN)を採用し、シーケンス学習モジュールとして双方向再帰型ニューラルネットワーク(Bi-RNN)を用いる。また、データ量が限られた状況下でも深層ニューラルネットワークの表現能力を最大限に引き出すため、反復的最適化プロセスを提案する。まず、エンドツーエンドの認識モデルを用いてアライメント提案を学習し、その結果を強力な教師信号として活用して特徴抽出モジュールを直接最適化する。この訓練プロセスを反復的に実行することで、認識性能の継続的な向上が可能となる。さらに、本研究ではRGB画像と光流(optical flow)のマルチモーダル融合に関する検討も行っている。提案手法は、2つの困難な手話認識ベンチマークデータセット上で評価され、いずれのデータセットにおいても、最先端手法に対して相対的に15%以上の性能向上を達成した。