9日前

単語データを活用したシグナルバックトランスレーションによる日本語手話翻訳の改善

Hao Zhou, Wengang Zhou, Weizhen Qi, Junfu Pu, Houqiang Li
単語データを活用したシグナルバックトランスレーションによる日本語手話翻訳の改善
要約

符号言語翻訳(SLT)に関する既存の先駆的研究は存在するが、並列な符号語-テキストデータの量が限られているという顕著な課題が依然として存在する。この並列データのボトルネックを克服するため、本研究では大量の話された言語テキストをSLTの学習に組み込む「符号バックトランスレーション(SignBT)」手法を提案する。まず、テキストからグロス(gloss)への翻訳モデルを用いて、単語語彙のテキストを逆翻訳し、そのグロス系列を生成する。次に、推定されたグロス→符号変換バンクから特徴レベルで断片を連結することで、対応する符号系列を合成する。最終的に得られた合成並列データは、エンコーダ-デコーダ型のエンドツーエンドSLTフレームワークの訓練を強化する強力な補完データとして機能する。さらに、SLT研究の促進を目的として、大規模な連続型SLTデータセット「CSL-Daily」を提供する。本データセットは、話された言語の翻訳とグロスレベルのアノテーションを両方提供しており、テーマは人々の日常(旅行、ショッピング、医療など)に焦点を当てており、SLTの最も実用的な応用シナリオに合致している。CSL-Daily上で、多数のSLT手法に関する実験結果および詳細な分析を報告する。提案する符号バックトランスレーション手法を用いることで、従来の最先端SLT手法に対して顕著な性能向上が達成された。

単語データを活用したシグナルバックトランスレーションによる日本語手話翻訳の改善 | 最新論文 | HyperAI超神経