DeepAffinity: 統合型リカレントおよびコンボリューショナルニューラルネットワークを用いた化合物-タンパク質親和性の解釈可能な深層学習

動機:医薬品の探索には化合物-タンパク質相互作用(CPI)の迅速な定量が必要とされています。しかし、シーケンス情報のみから化合物-タンパク質親和性を高精度かつ解釈可能な方法で予測する手法が不足しています。結果:我々はドメイン知識と学習ベースアプローチの無縫統合を提案します。構造注釈付きタンパク質シーケンスの新しい表現を使用し、ラベル付きデータと非ラベル付きデータ双方を利用できる半教師あり深層学習モデルが開発されました。このモデルは再帰型ニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)を統合しており、分子表現の共同エンコーディングと親和性予測に利用されます。我々の表現手法とモデルは、テストケースではIC$_{50}$の相対誤差を5倍以内、訓練に含まれていないタンパク質クラスでは20倍以内に抑えることで従来の手法を上回ります。転移学習により、ラベル付きデータが少ない新しいタンパク質クラスでの性能も向上しました。さらに、選択性のある薬物標的相互作用の予測と説明を行う事例研究において、分離された注意機構と結合した注意機構を開発し、モデルに組み込むことで解釈可能性を向上させました。最後に、タンパク質シーケンスや化合物グラフを使用した代替表現およびグラフ畳み込みニューラルネットワーク(GCNN)を用いた統合RNN/GCNN-CNNモデルについても検討し、今後のアルゴリズム的な課題を明らかにしました。利用可能性:データセットとソースコードはhttps://github.com/Shen-Lab/DeepAffinity で公開されています。補足情報:補足データはhttp://shen-lab.github.io/deep-affinity-bioinf18-supp-rev.pdf で入手可能です。