
要約
近年、機械学習と深層学習は薬物探索の分野で注目を集め、大きな成功を収めています。従来、機械学習や深層学習モデルは、構造データまたは化学的特性のいずれか一方に基づいて訓練されてきました。本研究では、これらのデータを同時に訓練することで全体的な性能向上を目指すアーキテクチャを提案しました。分子構造のSMILES表記とそのラベルを基に、SMILESベースの特徴行列と分子記述子を生成しました。これらのデータは、Attentionメカニズムも統合された深層学習モデルで訓練されました。このメカニズムは訓練と解釈の容易さを促進するためのものです。実験結果から、当社のモデルが参照モデルよりも予測性能が向上することが示されました。EGFR阻害剤データセットでのクロスバリデーションにより最大MCC 0.58およびAUC 90%という結果を得たことで、当社のアーキテクチャが参照モデルを上回っていることが確認されました。また、Attentionメカニズムを当社のモデルに成功裏に統合し、化学構造が生物活性への貢献度を解釈するのに役立つことを確認しました。(注:MCC = Matthews Correlation Coefficient, AUC = Area Under the Curve, EGFR = Epidermal Growth Factor Receptor)