17日前
タンパク質配列および小分子に対する線形スケーリングカーネルは、深層学習を上回る性能を発揮するとともに、不確実性の定量化と向上した解釈可能性を提供する
Jonathan Parkinson, Wei Wang

要約
ガウス過程(Gaussian Process, GP)は、機械学習における回帰タスクにおいて、不確実性の信頼性ある評価やモデルの解釈性の向上といった複数の利点を提供するベイズモデルである。しかし、計算コストが極めて高いため、特にアミノ酸や核酸配列といった順序データ、および小分子を表現するグラフデータなどの分析に適用する際の困難さから、その活用はこれまで制限されてきた。本研究では、GPモデルのフィッティングを効率的かつスケーラブルに行う手法と、グラフまたは配列サイズに線形にスケーリングする高速な畳み込みカーネルを新たに開発した。これらの改良を実現するために、オープンソースのPythonライブラリ「xGPR」を構築した。xGPRの性能を、小分子、タンパク質配列、テーブルデータを含む20のベンチマークにおいて、報告された複数のディープラーニングモデルと比較した結果、xGPRは著しく短い学習時間で非常に競争力のある性能を達成した。さらに、配列およびグラフデータ向けに新たなカーネルを設計し、タンパク質や小分子の重要な性質を予測するタスクにおいて、xGPRが畳み込みニューラルネットワーク(CNN)を一般に上回ることを示した。特に重要な点として、xGPRは通常のディープラーニングモデルでは得られない不確実性情報を提供する。また、入力データの表現を生成でき、クラスタリングやデータ可視化に利用可能である。これらの結果から、xGPRがタンパク質工学および創薬分野において広範に有用な強力かつ汎用的なツールであることが示された。