18日前

ニューラル手話翻訳

{Richard Bowden, Oscar Koller, Hermann Ney, Simon Hadfield, Necati Cihan Camgoz}
ニューラル手話翻訳
要約

手話認識(Sign Language Recognition: SLR)は過去20年間、活発な研究分野として注目されてきた。しかし、これまでの多くはSLRを単なるジェスチャー認識問題として扱ってきた。実際の手話は連続する手話記号のシーケンスを認識するものであり、話し言葉とは異なる豊かな文法的・言語構造を内在しているにもかかわらず、それらの構造を無視してきた。これに対し、本研究では「手話翻訳(Sign Language Translation: SLT)」という新たな問題設定を提案する。SLTの目的は、手話映像から話し言葉への翻訳を生成することであり、話し言葉と異なった語順や文法構造を考慮した上で行う。本研究では、ニューラル機械翻訳(Neural Machine Translation: NMT)の枠組みを用いて、エンドツーエンドおよび事前学習済みモデル(専門知識を活用)の両設定においてSLTを形式化した。これにより、空間的表現、内在する言語モデル、および手話と話し言葉との間のマッピングを一括して学習することが可能となる。SLTの性能評価のため、本研究では初の公開可能な連続的SLTデータセット「RWTH-PHOENIX-Weather 2014T」を収集した。このデータセットは、ドイツ手話(DGS)による天気予報映像に対し、話し言葉の翻訳と語彙レベル(gloss)のアノテーションを提供している。データセットは95万フレーム以上、1,000以上の手話語彙からなる67,000以上の手話記号、および2,800以上の語彙からなる99,000以上のドイツ語単語を含んでいる。本研究では、さまざまなSLT設定における定量的・定性的な結果を報告し、この新しく確立された分野における今後の研究を支援する。翻訳性能の上限(upper bound)はBLEU-4で19.26と算出されたが、エンドツーエンドのフレームレベルおよびglossレベルのトークン化ネットワークは、それぞれ9.58および18.13のBLEU-4スコアを達成した。