9日前

BSL-1K：口部運動情報を活用した共発話型手話認識のスケーリング

Samuel Albanie, Gül Varol, Liliane Momeni, Triantafyllos Afouras, Joon Son Chung, Neil Fox, Andrew Zisserman

要約

最近の細粒度のジェスチャーおよび行動分類、および機械翻訳分野における進展は、自動化された手話認識が現実のものとなる可能性を示唆している。この目標達成に向けた主要な障壁は、手話のアノテーションが極めて複雑であり、それに適したアノテーターの供給が限られていることによる適切な訓練データの不足にある。本研究では、連続動画における手話認識のためのスケーラブルなデータ収集手法を提案する。放送映像に付随する弱教師付き字幕とキーワード検出（keyword spotting）手法を活用し、1,000時間の動画内で1,000語の手話表現を自動的に局所化することに成功した。本研究の主な貢献は以下の通りである：（1）手話話者の口話（mouthing）の手がかりを活用することで、動画データから高品質なアノテーションを取得する方法を示した。その結果、英国手話（British Sign Language, BSL）の手話表現を過去にない規模で収集した「BSL-1Kデータセット」を構築した；（2）BSL-1Kを用いてBSLにおける連音化された手話表現（co-articulated signs）の強力な認識モデルを訓練できることを示し、さらに他の手話言語やベンチマークに対する優れた事前学習（pretraining）としての有効性も確認した。このモデルは、MSASLおよびWLASLの両ベンチマークにおいて、既存の最良手法を上回る性能を達成した；（3）手話認識および手話スポットティング（sign spotting）のための新たな大規模評価セットを提案し、これらのタスクに対するベースラインを提供した。これらは本分野における研究を促進することを期待している。