2ヶ月前

潜在変数モデルによる多モーダル翻訳

Iacer Calixto; Miguel Rios; Wilker Aziz
潜在変数モデルによる多モーダル翻訳
要約

本研究では、多モーダルニューラル機械翻訳(MMT)において視覚特徴とテキスト特徴の相互作用を潜在変数モデルを用いてモデル化することを提案します。この潜在変数は、画像とその外国語での説明の多モーダル確率埋め込みとして捉えることができます。これは、ターゲット言語デコーダで使用され、また画像特徴を予測するためにも利用されます。重要な点は、当該モデルの定式化が学習時に視覚情報とテキスト情報を使用する一方で、テスト時には画像が必須ではないことです。我々は、潜在変数MMTの定式化が強力な基線モデルに対して大幅に改善することを示しています。これらの基線モデルには、マルチタスク学習アプローチ(Elliott & Kádár, 2017)や条件付き変分オートエンコーダアプローチ(Toyama et al., 2016)が含まれます。最後に、以下の点により性能向上が確認されました。(i) 画像特徴にのみ条件付けを行うだけでなく、それらを予測すること、(ii) 潜在変数に符号化される情報量の最小値に対する制約を課すこと、(iii) 追加的なターゲット言語の画像説明(すなわち合成データ)を使用して学習することです。

潜在変数モデルによる多モーダル翻訳 | 最新論文 | HyperAI超神経