
要約
本稿では、連続手話認識(Continuous Sign Language Recognition)というタスクに対し、注目メカニズム(attentional network)を用いた新しいアプローチを提案する。提案手法は、手話のモダリティを表現する独立した複数のデータストリームを活用し、それらが互いに複雑な時系列構造を共有できるように設計されている。このような異なる情報チャネル間の複雑な依存関係を捕捉するため、我々は注目機構を用いて各手話成分間の時系列同期を実現し、相互に絡み合った依存関係を効果的に捉えることを目指している。手話は多チャネル的な性質を持つが、特にハンドシェイプ(手の形)は手話解釈における中心的な要素である。適切な文脈の中でハンドシェイプを認識することが、手話の意味を決定づける。この観点から、注目機構を用いて、適切な空間時系列的文脈とハンド特徴を効率的に統合することで、より正確な手話認識を実現している。その結果、モデルは主な手と顔領域を中心に構成される手話の本質的な構成要素を効果的に識別できることを確認した。本モデルはベンチマークデータセットであるRWTH-PHOENIX-Weather 2014上で評価され、競争力のある性能を示した。