17日前

STMC-Transformerを活用したより優れた手話翻訳

Kayo Yin, Jesse Read
STMC-Transformerを活用したより優れた手話翻訳
要約

手話翻訳(SLT)は、まず手話認識(SLR)システムを用いて動画から手話の語彙(gloss)を抽出し、その後、翻訳システムがその手話語彙から口語への翻訳を生成する。本論文では翻訳システムに焦点を当て、PHOENIX-Weather 2014Tデータセットにおける語彙→テキスト翻訳および動画→テキスト翻訳において、それぞれ5点および7点以上のBLEUスコア向上を達成するSTMC-Transformerを提案する。また、ASLG-PC12コーパスにおいては、16点以上のBLEUスコアの向上を報告している。さらに、現在の手法が語彙監督に依存するという問題点を示している。STMC-Transformerの動画→テキスト翻訳性能は、真の語彙(GT glosses)を用いた翻訳を上回っている。これは、従来の主張である「GT語彙の翻訳がSLT性能の上限を示す」という仮定と矛盾しており、語彙表現が手話の効率的な表現ではないことを示唆している。今後のSLT研究においては、認識モデルと翻訳モデルをエンドツーエンドで統合して学習するか、あるいは異なる手話アノテーションスキームを採用することを提案する。

STMC-Transformerを活用したより優れた手話翻訳 | 最新論文 | HyperAI超神経