17日前

SentenceMIM:潜在変数言語モデル

Micha Livne, Kevin Swersky, David J. Fleet
SentenceMIM:潜在変数言語モデル
要約

SentenceMIM は、言語データ用の確率的オートエンコーダであり、相互情報量マシン(MIM)学習を用いて訓練され、可変長の言語観測値(例えば、VAEと同様)を固定長の表現に変換することができる。言語データに対するVAEの学習は、従来、事後崩壊(posterior collapse)の問題により困難であった。一方、MIM学習は観測値と潜在変数間の相互情報量を高めるよう促進し、事後崩壊に対して頑健である。この特性により、従来の言語用VAEと比べて、次元が1桁以上高い情報豊かな表現を学習可能となる。特に重要な点として、SentenceMIMの損失関数にはハイパーパラメータが存在しないため、最適化が簡素化される。複数のデータセットにおいて、SentenceMIMをVAEおよびAEと比較した結果、再構成性能はAEと同等に優れており、構造的な潜在空間を獲得している点でVAEと同等の性能を示した。潜在空間の構造性は、長さの異なる文の間における補間実験により実証された。さらに、微調整なしに学習済みモデルを質問応答や転移学習に応用することで、同様のアーキテクチャを持つVAEおよびAEを上回る性能を示し、SentenceMIMの汎用性を実証した。