
要約
拡散モデルが最先端の生成モデルとして登場したことに伴い、多くの研究者が条件付き拡散モデルを用いた分子生成技術を提案しています。しかし、分子の不可避な離散性により、拡散モデルが自然言語のような非常に複雑な条件と原始データを結びつけることが困難となっています。この問題に対処するため、本稿ではテキスト条件付き分子生成のための新しい潜在拡散モデルLDMol(Latent Diffusion Model for Molecules)を提案します。適切な潜在空間設計が拡散モデルの性能に決定的な影響を与えることを認識し、コントラスティブ学習戦略を用いてテキストデータから分子構造の独自特性を埋め込んだ新しい特徴空間を抽出します。実験結果は、LDMolが既存の自己回帰基準モデルよりもテキストから分子への生成ベンチマークで優れていることを示しており、これはテキストデータ生成において自己回帰モデルを超える最初の拡散モデルの一つであり、より良い潜在領域選択によって達成されています。さらに、LDMolが分子からテキストへの検索やテキストガイドによる分子編集などの下流タスクにも適用できることを示し、その多様性と潜在拡散モデルとしての有用性を証明しています。