HyperAIHyperAI

Command Palette

Search for a command to run...

トピックカバレッジに基づくトピックモデルの評価アプローチ

DAMIR KORENČIĆ STRAHIL RISTOV JELENA REPAR AND JAN ŠNAJDER

概要

トピックモデルは、大量のテキスト文書からトピック(重み付けされた単語と文書のリスト)を学習するための広く使用されている教師なしモデルである。トピックモデルがテキストコレクションにおけるトピックの発見に使用される場合、自然に生じる疑問は、モデルによって導出されたトピックが分析者が関心を持つトピックとどの程度対応しているかである。本論文では、これまで軽視されてきたトピックカバレッジ(Coverage)測定に基づくトピックモデル評価手法を見直し、拡張する。この手法は、トピック発見におけるモデルの性能分析や、大規模なトピックモデルおよびモデル品質指標の分析に適している。私たちは新しいカバレッジ指標を提案し、一連の実験を通じて2つの異なるテキストドメインで興味のあるトピック発見を行うために異なる種類のトピックモデルを評価する。これらの実験には、モデル品質の評価、特定のトピックカテゴリのカバレッジ分析、そしてカバレッジと他のトピックモデル評価方法との関係性分析が含まれている。本論文は新たな監督型カバレッジ指標と初の非監督型カバレッジ指標を提供する。監督型指標は人間の合意に近い精度でトピックマッチングを達成しており、非監督型指標は監督型指標と非常に高い相関性(スピアマン相関係数 ρ0.95\rho \geq 0.95ρ0.95)を示している。その他の貢献点としては、トピックモデルと異なる評価方法に関する洞察を得られることや、将来の研究のために利用できるデータセットとコードが含まれている。注:「カバレッジ」(Coverage)という言葉は一般的に使用されるため、「被覆率」という訳語を使用しましたが、「カバレッジ」も専門的な文脈で使用されます。必要に応じて「カバレッジ」を使用することも可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています