2ヶ月前

トピックカバレッジに基づくトピックモデルの評価アプローチ

Damir Korenčić; Strahil Ristov; Jelena Repar; Jan Šnajder
トピックカバレッジに基づくトピックモデルの評価アプローチ
要約

トピックモデルは、大量のテキスト文書からトピック(重み付けされた単語と文書のリスト)を学習するための広く使用されている教師なしモデルである。トピックモデルがテキストコレクションにおけるトピックの発見に使用される場合、自然に生じる疑問は、モデルによって導出されたトピックが分析者が関心を持つトピックとどの程度対応しているかである。本論文では、これまで軽視されてきたトピックカバレッジ(Coverage)測定に基づくトピックモデル評価手法を見直し、拡張する。この手法は、トピック発見におけるモデルの性能分析や、大規模なトピックモデルおよびモデル品質指標の分析に適している。私たちは新しいカバレッジ指標を提案し、一連の実験を通じて2つの異なるテキストドメインで興味のあるトピック発見を行うために異なる種類のトピックモデルを評価する。これらの実験には、モデル品質の評価、特定のトピックカテゴリのカバレッジ分析、そしてカバレッジと他のトピックモデル評価方法との関係性分析が含まれている。本論文は新たな監督型カバレッジ指標と初の非監督型カバレッジ指標を提供する。監督型指標は人間の合意に近い精度でトピックマッチングを達成しており、非監督型指標は監督型指標と非常に高い相関性(スピアマン相関係数 $\rho \geq 0.95$)を示している。その他の貢献点としては、トピックモデルと異なる評価方法に関する洞察を得られることや、将来の研究のために利用できるデータセットとコードが含まれている。注:「カバレッジ」(Coverage)という言葉は一般的に使用されるため、「被覆率」という訳語を使用しましたが、「カバレッジ」も専門的な文脈で使用されます。必要に応じて「カバレッジ」を使用することも可能です。

トピックカバレッジに基づくトピックモデルの評価アプローチ | 最新論文 | HyperAI超神経