15日前

テキスト表現の分離学習のための相互情報量の新たな推定手法

Pierre Colombo, Chloe Clavel, Pablo Piantanida
テキスト表現の分離学習のための相互情報量の新たな推定手法
要約

テキストデータの分離表現(disentangled representations)を学習することは、公平な分類、スタイル転送、文生成など、多くの自然言語処理タスクにおいて不可欠である。現在のテキストデータにおける主流のアプローチは、主に以下の2種類に分類される:1)潜在表現(latent code)から属性値を推定しにくくするように設計された敵対的(adversarial)な識別器(discriminator)を導入する方法、または2)潜在コードと属性値の間の相互情報量(mutual information)の変分近似下界を最小化する方法である。しかし、これらの既存手法は、分離度(または分離の強度)を細かく制御できないという根本的な制約を抱えている。特に、敵対的手法は訓練中は非常に効果的に動作するものの、訓練終了後も望ましくない属性に関する情報が依然として残存するという問題がある。本稿では、エンコーダの潜在コードと属性との間の相互情報量に対する新たな変分上界を提案する。この上界は、Rényiの拡張された情報量(Rényi divergence)を用いて近似誤差を制御することを目的としており、従来のテキストデータ向け手法に比べ、より優れた分離表現の学習を可能にするとともに、望ましい分離度を精密に制御できるという利点を持つ。さらに、多クラス設定における他の損失関数が引き起こす劣化(degeneracy)の問題を回避できる。本手法の有効性を、公平な分類およびテキストスタイル転送タスクにおいて実証した。また、分離表現を学習する際のスタイル転送における様々なトレードオフ、特に生成文の質との関係について、新たな知見を提示する。

テキスト表現の分離学習のための相互情報量の新たな推定手法 | 最新論文 | HyperAI超神経