1つのTransformerが2Dおよび3D分子データの両方を理解できる

視覚や言語データは通常、一意のフォーマットを持つのに対し、分子は異なる化学的表現形式を自然に用いて特徴づけることができる。分子を2次元のグラフとして捉えることもでき、また3次元空間における原子の配置として定義することも可能である。分子表現学習において、従来の大多数の研究では特定のデータフォーマットに特化したニューラルネットワークが設計されており、その結果、学習されたモデルは他のフォーマットに対しては性能を発揮しにくくなる傾向がある。本研究では、化学分野における汎用的なニューラルネットワークモデルが、異なるデータモダリティ間の分子タスクを処理できるべきだと考える。この目標を達成するため、本研究では、2次元または3次元の分子データを入力として受け取り、意味的な表現を生成可能な、新しいTransformerベースの分子モデル「Transformer-M」を提案する。標準的なTransformerをバックボーンアーキテクチャとして採用し、2次元と3次元の構造情報を別々のチャネルで符号化し、ネットワークモジュール内で原子特徴と統合する。入力データが特定のフォーマットである場合、対応するチャネルのみが活性化され、他方は無効化される。2次元および3次元の分子データに対して適切に設計された教師信号を用いて学習させることで、Transformer-Mは異なるデータモダリティからの知識を自動的に活用し、正確な表現を捉える能力を学習する。本研究ではTransformer-Mについて広範な実験を実施した。すべての実験結果から、Transformer-Mが2次元および3次元のタスクにおいて同時に優れた性能を発揮することが示され、その広範な適用可能性が裏付けられた。コードおよびモデルは、https://github.com/lsj2408/Transformer-M にて公開される予定である。