2ヶ月前
コピー機構と文字ベースのデータからテキストへの生成に向けたカスタマイズされた訓練
Marco Roberti; Giovanni Bonetta; Rossella Cancelliere; Patrick Gallinari

要約
最近数年、深層再帰ニューラルネットワークを用いた自然言語生成のための多くの手法が研究されています。最も広く使用されているシーケンス・ツー・シーケンスのニューラル手法は単語ベースであり、未知または頻度の低い単語に対処するために前処理ステップとしてデレキシカル化(逆にリレキシカル化)が必要です。しかし、これらの処理方法は使用される語彙に依存するモデルを生み出し、完全なニューラルモデルではありません。本研究では、アテンション機構を持つ文字レベルでの読み込みと生成を行うエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案します。これにより、デレキシカル化やトークナイゼーション、さらには小文字化も必要なくなります。また、文字がすべてのテキストの共通の「構成要素」であるため、このモデルはテキスト生成に対するより一般的なアプローチを可能にし、転移学習を活用した訓練も可能となります。これらの機能は主に以下の2つの特徴によって得られます:(i) 標準的な生成メカニズムとコピー機能との間で切り替える可能性があり、入力事実を直接出力にコピーすることができます;(ii) 生成テキストの品質向上に寄与する独自の訓練パイプラインを使用しています。さらに、文字ベースモデルのコピー能力を強調するために新規データセットE2E+を導入します。これはE2Eチャレンジで使用されている有名なE2Eデータセットを改変したものです。当社のモデルは5つの一般的に受け入れられている評価指標(BLEUなど)に基づいてテストされましたが、その結果は文字ベースおよび単語ベースアプローチに対して競争力のある性能を示しました。