단백질 2차 구조 예측은 단백질 접힘 문제의 하위 과제이다. 단백질 잔기 서열만으로 정확하게 2차 구조를 예측할 수 있는 경량 알고리즘이 존재할 경우, 이는 3차 구조 예측에 유용한 입력 자료를 제공할 수 있으며, 현재 최고 성능을 보이는 모델들에서 흔히 요구되는 다중 서열 정렬(MSA)에 대한 의존도를 줄일 수 있다. 이러한 접근은 특히 '고립 단백질'(orphan proteins)에 대해 더 우수한 성능을 발휘하는 단백질 접힘 알고리즘 개발을 가능하게 하며, 실행에 필요한 계산 자원을 대폭 줄이기 때문에 연구계와 산업계 모두에서의 접근성도 크게 향상된다. 그러나 기존의 2차 구조 예측을 위한 데이터셋은 크기가 작아 자동화된 2차 구조 예측 기술의 발전 속도를 제한하는 핵심적 장벽이 되고 있다. 게다가 이러한 데이터셋 내의 단백질 사슬 대부분이 정확히 식별되지 않아, 연구자들이 새로운 알고리즘 개발 시 외부 도메인 지식을 활용하는 데 어려움을 겪는다.이에 우리는 18,731개의 비중복 단백질 사슬과 각각의 Q8 2차 구조 레이블을 포함한 PS4 데이터셋을 제안한다. 각 사슬은 PDB 코드로 식별되며, 문헌에서 흔히 사용되는 다른 2차 구조 데이터셋들과의 중복 없이 구성되어 있다. 우리는 PS4 훈련 세트를 기반으로 2차 구조 예측 알고리즘을 훈련시키고, 추가적인 미세 조정(fine-tuning) 없이 제로샷(zero-shot) 상태에서 CB513 테스트 세트에서 최신 기술 수준의 Q8 및 Q3 정확도를 달성하는 아블레이션(Ablation) 연구를 수행하였다. 또한, 연구 공동체가 평가 알고리즘을 실행하고, 모델을 처음부터 훈련하거나 새로운 샘플을 데이터셋에 추가할 수 있도록 소프트웨어 툴킷을 제공한다.본 연구의 결과 재현 및 새로운 추론을 수행하기 위해 필요한 모든 코드와 데이터는 다음 링크에서 공개되어 있다: https://github.com/omarperacha/ps4-dataset