17日前
マルチモダリティデータ拡張を用いたエンドツーエンド型手話翻訳
Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong

要約
エンドツーエンド型手話翻訳(SLT)は、中間表現を経由せずに、手話動画を直接話語テキストに変換することを目的としています。このタスクは、手話動画とテキストのモダリティギャップおよびラベル付きデータの不足という課題により、困難さを伴ってきました。これらの課題のため、エンドツーエンド型手話翻訳(すなわち動画からテキストへの変換)の入力と出力の分布は、グロス(gloss)からテキストへのアプローチ(すなわちテキストからテキストへの変換)に比べて効果が低くなっています。こうした課題に対処するため、本研究では、手話グロス翻訳モデルから得られる疑似グロス-テキストペアを活用し、強力なグロス-テキスト翻訳能力をエンドツーエンド型手話翻訳(動画→テキスト)に転移するための新規なクロスモダリティデータ拡張(XmDA)フレームワークを提案します。具体的には、XmDAは、クロスモダリティ・ミックスアップとクロスモダリティ知識蒸留という2つの主要な構成要素で構成されています。前者は、手話動画特徴とグロス埋め込みの間の対応を明示的に促進することで、モダリティギャップを埋めることを目的としています。後者は、グロス→テキストの教師モデルから得られる生成知識を活用し、話語テキストの生成を指導します。PHOENIX-2014TおよびCSL-Dailyという2つの広く用いられているSLTデータセットにおける実験結果から、提案するXmDAフレームワークがベースラインモデルを著しくかつ一貫して上回ることが確認されました。さらに、詳細な分析により、XmDAが動画とテキスト間の表現距離を低減することで話語テキスト生成を強化し、特に低頻度語や長文の処理性能を改善していることが裏付けられました。