要約
動機化合物-タンパク質相互作用(CPI)の同定は、ドラッグディスカバリーやケモジェノミクス研究において極めて重要なタスクであり、三次元構造が不明なタンパク質は潜在的生物学的標的の大部分を占めている。このようなタンパク質に対しては、タンパク質配列情報のみを用いたCPI予測手法の開発が不可欠である。しかし、配列ベースのCPIモデルは、不適切なデータセットの使用、隠れたリガンドバイアス、不適切なデータセット分割といった特定の落とし穴に直面する可能性があり、結果として予測性能が過大評価されることがある。成果これらの課題に対処するため、本研究ではCPI予測を目的とした新たなデータセットを構築し、新しいTransformer型ニューラルネットワーク「TransformerCPI」を提案した。さらに、モデルが真の相互作用特徴を学習しているかどうかを厳密に検証するため、より洗練されたラベル反転実験を導入した。TransformerCPIは新設された実験環境において顕著な性能向上を達成し、タンパク質配列および化合物原子の重要な相互作用領域を可視化(デコンボリューション)することが可能となった。この特性は、今後のリガンド構造最適化に向けた化学生物学研究における有用な指針を提供するものと期待される。