2ヶ月前

自己学習型畳み込みニューラルネットワークを用いた短文クラスタリング

Jiaming Xu; Bo Xu; Peng Wang; Suncong Zheng; Guanhua Tian; Jun Zhao; Bo Xu
自己学習型畳み込みニューラルネットワークを用いた短文クラスタリング
要約

短文クラスタリングは、テキスト表現の疎さ(sparseness)により難題となっています。本稿では、短文クラスタリングに向けた柔軟な自己教授型畳み込みニューラルネットワークフレームワーク(Self-Taught Convolutional neural network for Short Text Clustering、以下STC^2と呼ぶ)を提案します。このフレームワークは、有用な意味論的特徴をより柔軟かつ成功裏に組み込み、非監督的な方法で偏りのない深いテキスト表現を学習することができます。当該フレームワークにおいては、まず既存の非監督次元削減手法を使用して、元の生テキスト特徴量をコンパクトなバイナリコードに埋め込みます。次に、単語埋め込みが探索され、畳み込みニューラルネットワークに入力されて深い特徴表現を学習します。一方で、訓練プロセス中に出力ユニットが事前学習済みのバイナリコードに適合するように利用されます。最後に、K平均法を使用して学習された表現をクラスタリングし、最適なクラスタを得ます。広範囲にわたる実験結果は、提案したフレームワークが効果的であり、柔軟性があり、3つの公開短文データセットでのテストにおいていくつかの人気のあるクラスタリング手法を上回ることを示しています。

自己学習型畳み込みニューラルネットワークを用いた短文クラスタリング | 最新論文 | HyperAI超神経