要約
クロスモーダル分子検索(Text2Mol)タスクは、分子と自然言語記述の間の意味的ギャップを埋めることを目的としている。この非自明な問題に対する解決策として、グラフ畳み込みネットワーク(GCN)とクロスモーダルアテンション、および対照学習を組み合わせた手法が、合理的な結果をもたらすことが示されている。しかし、以下の課題が存在する:1)クロスモーダルアテンション機構はテキスト表現にのみ有利であり、分子表現に対して有益な情報を提供できない。2)GCNを基盤とする分子エンコーダはエッジ特徴を無視しており、分子内のさまざまなサブ構造の重要性を十分に捉えていない。3)検索学習用の損失関数が単純すぎる。本研究では、Text2Mol問題をさらに深く検討し、新たな敵対的モダリティアライメントネットワーク(Adversarial Modality Alignment Network; AMAN)を用いた手法を提案する。本手法は、テキストエンコーダとしてSciBERT、分子エンコーダとしてグラフトランスフォーマーネットワークを採用し、マルチモーダル表現を生成する。その後、敵対的ネットワークを用いて両モダリティ間を相互にアライメントする。同時に、三重損失関数(triplet loss function)を活用して検索学習を実施し、モダリティアライメントをさらに強化する。ChEBI-20データセットを用いた実験により、本手法であるAMANがベースライン手法に比べて優れた有効性を示した。