9日前

手話認識および翻訳のためのマルチストリームキーポイントアテンションネットワーク

Mo Guan, Yan Wang, Guangkun Ma, Jiarui Liu, Mingzu Sun
手話認識および翻訳のためのマルチストリームキーポイントアテンションネットワーク
要約

日本語訳:手話は、ジェスチャー、顔の表情、身体の動きを通じて情報を伝達する非音声的なコミュニケーション手段である。現在の手話認識(SLR)および翻訳技術の大多数は、背景の変動に敏感なRGB動画入力を用いている。一方、キーポイントに基づくアプローチを採用することで、背景の変化による影響を軽減するとともに、モデルの計算負荷を大幅に削減できる。しかし、現行のキーポイントベースの手法は、キーポイントシーケンスに内在する潜在的な知識を十分に活用できていない。この課題に対処するため、我々のアイデアの源は、人間の認知メカニズムに由来する。人間は、ジェスチャーの構成と付加的な要素との相互作用を分析することで手話を理解する。そこで、一般的に利用可能なキーポイント推定器から得られるキーポイントシーケンスを表現するためのマルチストリームキーポイントアテンションネットワークを提案する。複数のストリーム間の相互作用を促進するため、キーポイント統合戦略、ヘッド統合、自己蒸留(self-distillation)といったさまざまな手法を検討した。提案するフレームワークは「MSKA-SLR」と命名され、追加の翻訳ネットワークを単純に導入することで、手話翻訳(SLT)モデルへと拡張可能である。Phoenix-2014、Phoenix-2014T、CSL-Dailyといった代表的なベンチマークデータセット上で包括的な実験を行い、本手法の有効性を実証した。特に、Phoenix-2014Tにおける手話翻訳タスクで、新たな最先端(SOTA)性能を達成した。コードおよびモデルは以下のURLから公開されている:https://github.com/sutwangyan/MSKA。