
要約
最近、バイエンコーダを基にした稠密検索手法の成功により、このアプローチは効率性と分野内有効性の観点から様々な興味深い下流検索タスクに適用されるようになりました。また、数学情報検索(Math Information Retrieval: MIR)タスクにおいても、稠密検索モデルの存在が見られるようになっていますが、最も効果的なシステムは依然として手作業で設計された構造特徴を考慮する古典的な検索手法です。本研究では、両者の最良の点を組み合わせることを目指しています:有効な数式検索のために明確に定義された構造検索手法と、文脈類似性を捉えるための効率的なバイエンコーダによる稠密検索モデル。具体的には、トークンレベルとパッセージレベルの稠密検索に代表的な2つのバイエンコーダモデルを評価しました。結果は、バイエンコーダモデルが既存の構造検索手法と非常に相補的であり、MIRデータセットにおける最先端技術を前進させることができることを示しています。