近年、自然言語処理(NLP)分野で開発された深層学習モデルが、タンパク質配列の解析に成功裏に応用されている。これらのモデルの主要な課題は、適合に必要なパラメータ数が多く、計算リソースを多大に要する点にある。近年、NLP分野では「教師-生徒ネットワーク」の概念を用いた「蒸留(distilled)」モデルが広く採用されている。本研究では、この概念をタンパク質配列解析の問題に適応し、成功を収めたProtBertモデルの蒸留版であるDistilProtBertを開発した。このアプローチを採用することで、ネットワークのサイズと実行時間をそれぞれ50%削減し、事前学習に必要な計算リソースはProtBertと比較して98%削減した。公開済みの2つのタスクを用いて、蒸留モデルの性能が完全なモデルとほぼ同等であることを示した。次に、DistilProtBertが実際のタンパク質配列とランダムにシャッフルされた配列を識別できるかを検証した。アミノ酸の単体(singlet)、二連体(doublet)、三連体(triplet)レベルでのアミノ酸組成を維持した状態では、このタスクは極めて困難であり、従来の機械学習アルゴリズムでは困難を呈する。本研究では、人間のプロテオームのsinglet、doublet、tripletシャッフルバージョンに対して、DistilProtBertがそれぞれAUC 0.92、0.91、0.87という優れた性能を示した。最後に、DistilProtBertが誤って「タンパク質」と分類する少数の偽陽性(すなわち、シャッフルされた配列がタンパク質と誤判定されるもの)に注目することで、アミノ酸配列をランダムにシャッフルすることにより、新たな自然由来のタンパク質に類似した潜在的タンパク質を発見できる可能性があると提案する。