6ヶ月前

概要

毎日大量に生成されるオンライン記事の膨大な量を踏まえ、ニュース機関などのオンラインプラットフォームが、イベントや活動、議論に関する情報をユーザーにわかりやすく提示することは極めて困難である。そのため、大規模な非構造的ドキュメントコレクションから、時系列的に整序された関連情報（すなわち情報スレッド）を自動的に抽出する手法の開発が不可欠である。本研究では、時系列的かつ一貫性のある情報スレッドを生成するため、新しい非教師あり階層的凝集型クラスタリング（HAC）に基づく情報スレッド化アプローチを提案する。従来のトピック検出と追跡（topic detection and tracking）やイベントスレッド化（event threading）といった手法が、重要なキーワードやエンティティに基づいて情報をグループ化するのに対し、本研究で提案するアプローチは、イベントに関する多様な情報——「誰が、何を、なぜ、どこで、いつ、どのように」（通称5W1H）——の時系列的関係に基づいてスレッドを識別する。特に、本アプローチは、5W1Hの質問に対する抽出された回答と、ドキュメント間の時間減衰（time decay）を活用してカスタマイズされた類似度関数をHACに導入している。本手法の有効性を、2つの大規模な専門家アノテーション付きニュース記事コレクション（NewSHead：112,000件以上、Multi-News：32,000件以上）を用いて評価した。実験結果から、従来の最先端手法と比較して、本提案手法（HAC 5W1H）は生成されるスレッド数とその品質の両面で顕著な向上が得られた。特に、より大きなNewSHeadデータセットにおいて、最良のベースラインと比較して、スレッド数は100.98%増加し、正規化相互情報量（Normalized Mutual Information）は+213.39%向上した。また、ユーザー実験を実施した結果、本手法は従来の最先端手法と比較して、一貫性、多様性、時系列的正確性の観点で有意に（p < 0.05）好まれることが確認された。

ソースPDF コードを表示