16日前
階層的トピックマイニング:球面木構造とテキスト埋め込みの統合手法
Yu Meng, Yunyi Zhang, Jiaxin Huang, Yu Zhang, Chao Zhang, Jiawei Han

要約
大規模なテキストコーパスにおいてトピック間の相関関係が広く見られるため、階層構造に整理された意味のあるトピック群を抽出することは直感的に魅力的である。階層的トピック構造を考慮するため、階層的トピックモデルは生成モデルのプロセスに潜在的なトピック階層を組み込むことで、平坦なトピックモデルを一般化している。しかし、これらモデルは完全に教師なしの性質を持つため、学習されたトピック階層はユーザーの特定のニーズや関心と乖離することが多い。ユーザーの最小限の監督で階層的トピック発見プロセスをガイドするため、本研究では新たなタスク「階層的トピックマイニング」を提案する。このタスクは、カテゴリ名のみで構成されるカテゴリツリーを入力とし、テキストコーパスから各カテゴリに対応する代表語を抽出することを目的とする。これにより、ユーザーが関心を持つトピックをより深く理解できるように支援する。本研究では、球面空間においてカテゴリツリー構造とコーパスの生成プロセスを同時にモデル化できる、新たなJoint Tree and Text Embedding手法と、理論的に根拠のある最適化手順を提案する。広範な実験の結果、本モデル(JoSH)は高品質かつ効率的な階層的トピックの抽出を実現し、弱教師ありの階層的テキスト分類タスクにおいても有益であることが示された。