
要約
科学文献は、アイデアを伝えるために数学とテキストの両方を頼りにしています。科学文献において数式と単語の文脈との間で観察されるトピック対応関係に着想を得て、私たちは数式とその周辺のテキストを共同で生成する新しいトピックモデル(TopicEq)を提案します。相関トピックモデルの拡張版を使用して、文脈は潜在的なトピックの混合から生成され、数式は潜在的なトピック活性化に依存するRNNによって生成されます。このモデルを実験するために、arXivから抽出した40万件の数式-文脈ペアを含むコーパスを作成し、変分オートエンコーダー手法を使用してモデルを適合させました。実験結果は、この共同モデルが既存の科学文献用トピックモデルや数式モデルよりも著しく優れていることを示しています。さらに、定性的な分析により、このモデルがトピックと数学の関係を効果的に捉えていることが確認され、トピックに基づく数式生成、数式のトピック推論、および数学記号と単語のトピックに基づく対応付けなどの新規アプリケーションが可能になりました。