2ヶ月前

文書の埋め込みとその不確実性の学習

Santosh Kesiraju; Oldřich Plchot; Lukáš Burget; Suryakanth V Gangashetty
文書の埋め込みとその不確実性の学習
要約

大多数的文本建模技术仅生成文档嵌入的点估计值,无法捕捉这些估计值的不确定性。这些不确定性反映了嵌入值在多大程度上能够准确表示文档。本文提出了一种贝叶斯子空间多项式模型(Bayesian SMM),这是一种生成性的对数线性模型,通过学习以高斯分布的形式表示文档,从而在其协方差中编码不确定性。此外,在提出的贝叶斯SMM中,我们解决了混合逻辑模型在变分推断过程中常见的不可解问题。我们还提出了一种用于主题识别的生成性高斯线性分类器,该分类器利用了文档嵌入中的不确定性。我们的内在评估使用困惑度指标表明,与最先进的神经变分文档模型相比,所提出的贝叶斯SMM在Fisher语音和20Newsgroups文本语料库上的数据拟合效果更好。我们的主题识别实验表明,所提出的系统在未见过的测试数据上具有较强的过拟合鲁棒性。主题ID的结果显示,所提出的模型优于最先进的无监督主题模型,并且达到了与最先进的完全监督判别模型相当的效果。翻訳:大部分のテキストモデリング手法は、ドキュメント埋め込みの点推定値のみを生成し、これらの推定値の不確実性を捉えることができない。これらの不確実性は、埋め込みがドキュメントをどの程度正確に表現しているかの指標となる。本稿では、ベイジアン部分空間多項モデル(Bayesian SMM)を提案する。これは生成的な対数線形モデルであり、ドキュメントをガウス分布の形式で学習して表現することで、その共分散に不確実性を符号化する。さらに、提案されたベイジアンSMMでは、混合ロジットモデルにおける変分推論過程で一般的に遭遇する非解析問題に対処している。また、ドキュメント埋め込みの不確実性を利用した主題識別のための生成的なガウス線形分類器も提案する。我々の内在評価では、パープレキシティ測定を使用し、最先端のニューラル変分ドキュメントモデルと比較して、提案されたベイジアンSMMがFisher音声コーパスおよび20Newsgroupsテキストコーパスにおいてデータへの適合がより良好であることが示された。主題識別実験では、提案システムが未見テストデータに対する過学習に対して堅牢であることが確認された。主題IDの結果は、提案モデルが最先端の非監督主題モデルを上回り、最先端の完全監督判別モデルと同等の性能を達成していることを示している。

文書の埋め込みとその不確実性の学習 | 最新論文 | HyperAI超神経