18日前

ニューラル手指話訳のためのフローズン事前学習トランスフォーマー

{Joni Dambre, Mieke Van Herreweghe, Severine Verlinden, Paloma Rabaey, Marija Pizurica, Karel D'Oosterlinck, Mathieu De Coster}
ニューラル手指話訳のためのフローズン事前学習トランスフォーマー
要約

手話から spoken 言語への翻訳において大きな課題の一つは、平行コーパスの不足である。近年の研究では、ドイツ手話とドイツ語の間で8,000文以上を含む平行文を持つRWTH-PHOENIX-Weather 2014Tデータセットにおいて、有望な成果が得られている。しかしながら、ニューラル機械翻訳の観点から見ると、これは依然として極めて小さなデータセットである。小規模データセット上で学習するモデルの性能を向上させるため、転移学習(transfer learning)の活用が有効である。これまでに、特徴抽出の目的で手話翻訳において転移学習は用いられてきたが、本研究までに、事前学習済み言語モデル(pretrained language models)が手話ビデオからspoken言語テキストへの翻訳モデルに適用された例は、知られていない。本研究では、事前学習済みのBERT-baseおよびmBART-50モデルを、手話ビデオからspoken言語テキストへの翻訳モデルの初期化に用いた。過学習を軽減するため、フリーズされた事前学習Transformer(frozen pretrained transformer)技術を導入し、学習過程において大部分のパラメータを固定した。事前学習済みBERTモデルを用いた結果、初期化から学習を開始したベースラインモデルと比較して、BLEU-4スコアで1~2ポイントの向上を達成した。本研究の結果から、事前学習済み言語モデルが手話翻訳の性能向上に有効であることが示されるとともに、BERTに学習された自己注意(self-attention)パターンが、ゼロショット(zero-shot)状態で手話翻訳モデルのエンコーダおよびデコーダに効果的に転移可能であることが明らかになった。