
要約
本稿では、手話翻訳(SLT)のためのシンプルかつ効果的なフレームワークであるIP-SLTを提案する。IP-SLTは再帰構造を採用し、入力となる手話動画の意味表現(プロトタイプ)を反復的精緻化の手法により向上させる。本研究のアイデアは、人間の読解行動を模倣したものであり、文は正確な理解に達するまで繰り返し咀嚼されるという点に着目している。技術的には、IP-SLTは特徴抽出、プロトタイプ初期化、および反復的プロトタイプ精緻化の3つのモジュールから構成される。特徴抽出モジュールによって抽出された視覚特徴を基に、初期化モジュールが初期プロトタイプを生成する。その後、反復的精緻化モジュールはクロスアテンション機構を活用し、前のプロトタイプを元の動画特徴と統合することで、より高精度な表現に磨き上げる。この反復的な精緻化により、プロトタイプは最終的により安定的かつ正確な状態に収束し、自然で適切な翻訳を実現する。さらに、プロトタイプの時系列的依存関係を活用するため、最終反復の知識を前期のプロトタイプに圧縮するための反復的蒸留損失(iterative distillation loss)を新たに提案する。推論時には自己回帰的デコード処理が一度だけ実行されるため、IP-SLTは追加のオーバーヘッドを最小限に抑えつつ、さまざまなSLTシステムの性能向上が可能である。公開ベンチマーク上での広範な実験により、IP-SLTの有効性が実証された。