7ヶ月前

概要

小分子の薬理特性を正確に予測することは、創薬プロセスにおいてますます重要性を増している。従来の特徴量設計（feature-engineering）手法は、手作業で構築された記述子（descriptors）やフィンガープリント（fingerprints）に大きく依存しており、これには広範な専門知識が必要となる。一方、人工知能技術の急速な進展に伴い、データ駆動型の深層学習（deep learning）手法は、特徴量設計に基づく手法に比べて顕著な優位性を示している。しかし、既存の深層学習手法は、ラベル付きデータの不足と、異なるタスク間での情報共有が困難な点に起因し、分子特性予測に応用する際に一般化能力が低くなるという課題を抱えている。本研究では、大規模事前学習（pre-training）、マルチタスク学習（multitask learning）、およびSMILES（Simplified Molecular Input Line Entry Specification）文字列の列挙を統合した新しいマルチタスク学習BERT（Bidirectional Encoder Representations from Transformer）フレームワーク、MTL-BERTを提案する。MTL-BERTは、大量のラベルなしデータを自己教師学習（self-supervised pretraining）によって活用し、SMILES文字列に内在する豊かな文脈情報を抽出する。その後、事前学習済みモデルを、タスク間の共有情報を活用しながら複数の下流タスクに対して同時に微調整（fine-tuning）することで、性能を向上させる。さらに、SMILES列挙を事前学習、微調整、テストの各フェーズにデータ拡張戦略として導入することで、データの多様性を大幅に向上させ、複雑なSMILES文字列から重要な関連パターンを学習する支援を行う。実験結果から、わずかな追加微調整で事前学習されたMTL-BERTモデルが、60の実用的分子データセットの大部分において、最先端の手法を上回る優れた性能を達成することが明らかになった。また、MTL-BERTモデルはアテンション機構を用いて、ターゲット特性に本質的なSMILES文字列の特徴に注目することで、モデルの解釈可能性を高めている。

ソースPDF コードを表示