モーダリティのより良い整合性をもたらすためのクロスモーダルなテキスト-分子検索へ

クロスモーダルなテキスト-分子検索モデルは、テキストと分子のモーダリティ間で共有される特徴空間を学習し、正確な類似度計算を実現することを目指しています。これにより、特定の特性や活性を持つ分子を迅速にスクリーニングすることができ、医薬品設計において有用です。しかし、これまでの研究には主に2つの欠点があります。第一に、テキストシーケンスと分子グラフの間に存在する大きなギャップを考えると、モーダリティ間で共有される特徴を十分に捉えることができません。第二に、クロスモーダルなアライメントのために対照学習(contrastive learning)や敵対的訓練(adversarial training)に大きく依存していますが、これらは主に一次類似度に焦点を当てており、埋め込み空間内のより多くの構造情報を捉えることができる二次類似度を無視しています。これらの問題に対処するために、我々は2つの改善点を持つ新しいクロスモーダルなテキスト-分子検索モデルを提案します。具体的には、2つのモーダリティ固有のエンコーダーの上に、学習可能なメモリベクトルを含むメモリバンクベースの特徴投影器を積み重ねることで、共有される特徴をより効果的に抽出します。さらに重要なのは、モデル訓練中に各インスタンスに対して4種類の類似度分布(テキスト-テキスト間類似度分布、テキスト-分子間類似度分布、分子-分子間類似度分布、および分子-テキスト間類似度分布)を計算し、これらの類似度分布間の距離(すなわち二次類似度損失)を最小化することでクロスモーダルなアライメントを強化します。実験結果と分析は我々のモデルの有効性を強く示しており、特に我々のモデルは最先端(SOTA: State-of-the-Art)性能を達成し、以前報告された最良結果よりも6.4%優れています。