9日前

簡単なマルチモーダリティ転移学習ベースラインによる手話翻訳

Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin
簡単なマルチモーダリティ転移学習ベースラインによる手話翻訳
要約

本稿では、手話翻訳のためのシンプルな転移学習ベースラインを提案する。既存の手話データセット(例:PHOENIX-2014T、CSL-Daily)には、手話動画、 gloss(語彙単位)の注釈、および対応するテキストのペアが約1万~2万件程度しか含まれておらず、通常の話された言語翻訳モデルの学習に用いられる並列データと比べて1桁小さい規模である。したがって、効果的な手話翻訳モデルの学習において、データの不足が大きな制約要因となっている。この問題を緩和するために、一般ドメインの大量の外部教師信号を用いたデータセットから段階的に事前学習を行い、その後、ドメイン特化したデータセットへと移行するアプローチを提案する。具体的には、手話→glossの視覚ネットワークを、人間の動作という一般ドメインと、手話→glossデータセットというドメイン特化データセットの両方で事前学習し、gloss→テキストの翻訳ネットワークについては、多言語コーパスという一般ドメインと、gloss→テキストコーパスというドメイン特化データセットの両方で事前学習を行う。その後、これらの2つのネットワークを接続する「視覚言語マッパー」という追加モジュールを導入し、統合モデルを微調整する。このシンプルなベースラインは、2つの手話翻訳ベンチマークにおいて、従来の最先端手法を上回る性能を達成しており、転移学習の有効性を示している。その簡潔さと高い性能から、本手法は今後の研究における堅実なベースラインとして活用可能である。コードおよびモデルは以下のURLから入手可能である:https://github.com/FangyunWei/SLRT。