タンパク質の二次構造予測は、タンパク質折りたたみ問題の部分問題の一つである。タンパク質残基配列のみから高精度に二次構造を予測できる軽量なアルゴリズムが開発されれば、三次構造予測の入力として有用な情報を提供でき、現在の高性能モデルで一般的に用いられる多系統的配列アラインメント(MSA)への依存を軽減することが可能となる。この結果、オーファンタンパク質(既知の類縁タンパク質が存在しないタンパク質)に対して優れた性能を発揮するタンパク質折りたたみアルゴリズムの開発が促進されるとともに、実行に必要な計算リソースを削減することで、研究機関および産業界における導入のしやすさも向上する。しかしながら、現存する二次構造予測用データセットは規模が小さく、自動二次構造予測の進展速度にボトルネックを生じている。さらに、これらのデータセットに含まれるタンパク質鎖の識別情報が不足している場合が多く、新規アルゴリズム開発時に外部のドメイン知識を活用する能力が制限されている。本研究では、18,731の非冗長なタンパク質鎖およびそれらに対応するQ8二次構造ラベルを含むデータセット「PS4」を提示する。各タンパク質鎖はPDBコードで識別され、文献で一般的に用いられる他の二次構造データセットに対しても非冗長性が確保されている。PS4のトレーニングセットを用いて二次構造予測アルゴリズムのアブレーション研究を実施した結果、CB513テストセットにおいて、追加のファインチューニングを行わず、ゼロショット(zero-shot)状態で最先端のQ8およびQ3正解率を達成した。さらに、コミュニティが評価アルゴリズムを実行したり、モデルをゼロから学習したり、新たなサンプルをデータセットに追加したりできるためのソフトウェアツールキットも提供している。本研究の結果を再現し、新たな推論を行うために必要なすべてのコードおよびデータは、https://github.com/omarperacha/ps4-dataset にて公開されている。