
要約
大規模言語モデルは自然言語処理において大きな進歩を遂げ、分子のテキスト表現を処理することで分子科学における革新的な応用を可能にしています。しかし、既存の多くの言語モデルは複雑な分子構造や画像に含まれる豊富な情報を捉えることができません。本論文では、グラフ、画像、テキスト情報を統合する多モーダルの大規模言語モデルであるGIT-Mol(Graph, Image, and Text for Molecules)を紹介します。多モーダルの分子データの統合を容易にするため、すべてのモーダリティを一貫した潜在空間に合わせることができる新しいアーキテクチャであるGIT-Former(Graph, Image, and Text Transformer)を提案します。我々のモデルは、基準モデルと比較して特性予測で5-10%の精度向上と、分子生成の有効性で20.2%の向上を達成しました。任意のモーダルから言語への分子翻訳戦略により、化合物名認識や化学反応予測などのさらなる下流タスクを行う可能性があります。