最適輸送に基づく多粒度アライメントの探索とテキスト-分子検索への応用

バイオインフォマティクスの分野では、著しい進展が見られ、クロスモーダルなテキスト-分子検索タスクがますます重要となっています。このタスクは、テキスト記述に基づいて分子構造を正確に検索することに焦点を当て、テキスト記述と分子を効果的に対応付けることで研究者が適切な分子候補を見つけることを支援します。しかし、多くの既存の手法は分子サブ構造に内在する詳細を見落としています。本研究では、Optimal TRansport-based Multi-grained Alignments model (ORMA) という新しいアプローチを提案します。ORMAは、テキスト記述と分子の間で多粒度の対応付けを可能にするモデルです。当モデルにはテキストエンコーダーと分子エンコーダーが含まれています。テキストエンコーダーは、テキスト記述をトークンレベルと文レベルの表現に処理します。一方、分子は階層的な異種グラフとしてモデリングされ、原子ノード、モチーフノード、および分子ノードからこれら3つのレベルでの表現を抽出します。ORMAにおける重要な革新点は、最適輸送 (Optimal Transport, OT) を用いてトークンとモチーフを対応付けることです。これにより、複数のトークン対応付けとそれに対応するモチーフを統合した多トークン表現を作成できます。さらに、コントラスティブ学習を使用して3つの異なるスケール(トークン-原子、多トークン-モチーフ、文-分子)でのクロスモーダルな対応付けを洗練し、正しくマッチングされたテキスト-分子ペア間の類似性が最大化されるとともに不一致のペア間の類似性が最小化されるようにしています。当方の知る限りでは、これはモチーフレベルと多トークンレベルでの対応付けを探求する最初の試みです。ChEBI-20およびPCdesデータセットでの実験結果は、ORMAが既存の最先端 (State-of-the-Art, SOTA) モデルよりも大幅に優れていることを示しています。