17日前

短テキストクラスタリングのための自己学習アプローチ

{Chris Develder, Thomas Demeester, Lucas Sterckx, Amir Hadifar}
短テキストクラスタリングのための自己学習アプローチ
要約

短いテキストのクラスタリングは、従来の袋文字(bag-of-words)やTF-IDF表現を用いる場合、テキストのベクトル表現が疎(sparse)になりがちなため、困難な課題である。低次元の連続表現(エミュベディング)はこの疎性の問題を緩和できる。深層学習によるクラスタリング手法では、こうした表現の高い表現力が活用されている。一方で、コンピュータビジョン分野における深層クラスタリングの研究は盛んであるが、自然言語処理(NLP)分野ではそれほど注目されていない。本研究で提案する手法は、オートエンコーダと文のエミュベディングから識別的な特徴を学習し、クラスタリングアルゴリズムによるクラスタ割り当てを教師信号として用いて、エンコーダネットワークの重みを更新する。3つの短いテキストデータセットを用いた実験により、本手法の有効性が実証された。