17日前
教育用動画からの手話翻訳
Laia Tarrés, Gerard I. Gállego, Amanda Duarte, Jordi Torres, Xavier Giró-i-Nieto

要約
自動手話翻訳(SLT)技術の進展は、これまで主に規模が限定的で領域が狭いデータセットを用いて評価されてきた。本研究では、大規模かつ多様性に富んだデータセット「How2Sign」を用いて、初めてのベースライン結果を提示することで、この分野の技術水準を飛躍的に向上させた。我々は、I3D動画特徴量を入力としてTransformerモデルを学習し、広く用いられているBLEUスコアではなく、簡略化されたBLEU(reduced BLEU)を検証指標として採用した。その結果、BLEUスコアは8.03を達成し、本研究では初めて同種のオープンソース実装を公開することで、今後の技術進展を促進することを目的としている。