
要約
機械学習技術は最近、医学、生物学、化学、材料工学のさまざまな応用分野で採用されています。重要な課題の一つは、分子の特性を予測することであり、これは仮想スクリーニングや薬剤設計などの多くの下流応用における主要なサブルーチンとなっています。関心が高まっている一方で、主な課題は学習アルゴリズムに適した分子の表現を構築することです。本論文では、N-gramグラフという単純な非監督的な分子表現手法を紹介します。この方法はまず、分子グラフ内の頂点を埋め込みます。次に、グラフ内の短いパスに沿って頂点埋め込みを組み合わせることで、グラフのコンパクトな表現を構築します。これは訓練を必要としない単純なグラフニューラルネットワークと同等であることを示しています。これらの表現は効率的に計算でき、その後監督学習手法を使用して予測に利用することができます。10つのベンチマークデータセットから60のタスクに対する実験結果は、人気のあるグラフニューラルネットワークや従来の表現手法に対して優れた性能を示しています。また、理論的な分析によりその強力な表現力と予測能力が補完されています。注:「N-gramグラフ」(N-gram graph)、「頂点埋め込み」(vertex embeddings)、「下流応用」(downstream applications)などは専門的な用語であり、一般的な日本語では馴染みがないかもしれませんが、ここではそれらを使用しています。