14日前

漢字の表現ボトルネックを突破する:筆順シーケンスモデリングを用いたニューラル機械翻訳

Zhijun Wang, Xuebo Liu, Min Zhang
漢字の表現ボトルネックを突破する:筆順シーケンスモデリングを用いたニューラル機械翻訳
要約

従来の研究では、漢字を表現の最小単位として扱うことが一般的である。しかし、このような漢字表現は、以下の2つのボトルネックに直面する。1)学習ボトルネック:漢字の豊かな内部構造(例:部首や筆画)を活用した学習が困難になること。2)パラメータボトルネック:各漢字が独自のベクトルで表現されなければならないため、モデルのパラメータ数が急増する問題。本論文では、これらのボトルネックを克服するための新しい漢字表現手法、StrokeNetを提案する。StrokeNetは、漢字をラテン文字化された筆画シーケンス(例:「ao1(凹)」→「ajaie」、「tu1(凸)」→「aeaqe」)で表現する。具体的には、各筆画を特定のラテン文字にマッピングすることで、類似した漢字が類似したラテン文字表現を持つようになる。このStrokeNetをニューラル機械翻訳(NMT)に導入することにより、非ラテン語に適用が困難であった多くの強力な技術(例:共有サブワード語彙の学習、暗号化に基づくデータ拡張)を、今や効果的に実装できるようになった。NIST中国語-英語、WMT17中国語-英語、IWSLT17日本語-英語という広く用いられているNMTタスクにおける実験結果から、StrokeNetは、少ないモデルパラメータ数で強力なベースラインを大きく上回る性能を達成した。特にWMT17中国語-英語タスクでは26.5のBLEUスコアを達成し、単語レベルの単語データを用いない既存のすべての報告結果を上回った。コードおよびスクリプトは、https://github.com/zjwang21/StrokeNet にて無料で公開されている。

漢字の表現ボトルネックを突破する:筆順シーケンスモデリングを用いたニューラル機械翻訳 | 最新論文 | HyperAI超神経