HyperAIHyperAI

Command Palette

Search for a command to run...

BSL-1K:口部運動情報を活用した共発話型手話認識のスケーリング

Samuel Albanie Gül Varol Liliane Momeni Triantafyllos Afouras Joon Son Chung Neil Fox Andrew Zisserman

概要

最近の細粒度のジェスチャーおよび行動分類、および機械翻訳分野における進展は、自動化された手話認識が現実のものとなる可能性を示唆している。この目標達成に向けた主要な障壁は、手話のアノテーションが極めて複雑であり、それに適したアノテーターの供給が限られていることによる適切な訓練データの不足にある。本研究では、連続動画における手話認識のためのスケーラブルなデータ収集手法を提案する。放送映像に付随する弱教師付き字幕とキーワード検出(keyword spotting)手法を活用し、1,000時間の動画内で1,000語の手話表現を自動的に局所化することに成功した。本研究の主な貢献は以下の通りである:(1)手話話者の口話(mouthing)の手がかりを活用することで、動画データから高品質なアノテーションを取得する方法を示した。その結果、英国手話(British Sign Language, BSL)の手話表現を過去にない規模で収集した「BSL-1Kデータセット」を構築した;(2)BSL-1Kを用いてBSLにおける連音化された手話表現(co-articulated signs)の強力な認識モデルを訓練できることを示し、さらに他の手話言語やベンチマークに対する優れた事前学習(pretraining)としての有効性も確認した。このモデルは、MSASLおよびWLASLの両ベンチマークにおいて、既存の最良手法を上回る性能を達成した;(3)手話認識および手話スポットティング(sign spotting)のための新たな大規模評価セットを提案し、これらのタスクに対するベースラインを提供した。これらは本分野における研究を促進することを期待している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BSL-1K:口部運動情報を活用した共発話型手話認識のスケーリング | 記事 | HyperAI超神経