9日前
BSL-1K:口部運動情報を活用した共発話型手話認識のスケーリング
Samuel Albanie, Gül Varol, Liliane Momeni, Triantafyllos Afouras, Joon Son Chung, Neil Fox, Andrew Zisserman

要約
最近の細粒度のジェスチャーおよび行動分類、および機械翻訳分野における進展は、自動化された手話認識が現実のものとなる可能性を示唆している。この目標達成に向けた主要な障壁は、手話のアノテーションが極めて複雑であり、それに適したアノテーターの供給が限られていることによる適切な訓練データの不足にある。本研究では、連続動画における手話認識のためのスケーラブルなデータ収集手法を提案する。放送映像に付随する弱教師付き字幕とキーワード検出(keyword spotting)手法を活用し、1,000時間の動画内で1,000語の手話表現を自動的に局所化することに成功した。本研究の主な貢献は以下の通りである:(1)手話話者の口話(mouthing)の手がかりを活用することで、動画データから高品質なアノテーションを取得する方法を示した。その結果、英国手話(British Sign Language, BSL)の手話表現を過去にない規模で収集した「BSL-1Kデータセット」を構築した;(2)BSL-1Kを用いてBSLにおける連音化された手話表現(co-articulated signs)の強力な認識モデルを訓練できることを示し、さらに他の手話言語やベンチマークに対する優れた事前学習(pretraining)としての有効性も確認した。このモデルは、MSASLおよびWLASLの両ベンチマークにおいて、既存の最良手法を上回る性能を達成した;(3)手話認識および手話スポットティング(sign spotting)のための新たな大規模評価セットを提案し、これらのタスクに対するベースラインを提供した。これらは本分野における研究を促進することを期待している。