
초록
최근 연구들은 원하는 구조로 접히는 아미노산 서열을 찾는 단백질 설계 분야에서 경쟁력 있는 성능을 보여주었다. 그러나 대부분의 기존 방법들은 예측 신뢰도의 중요성을 간과하고, 광범위한 단백질 공간을 충분히 커버하지 못하며, 일반적인 단백질 지식을 통합하지 못하고 있다. 다양한 단백질 관련 작업에서 사전 학습 모델이 큰 성공을 거둔 점과 복구율(recovery rate)이 신뢰도와 매우 높은 상관관계를 보인다는 사실을 바탕으로, 이러한 지식이 단백질 설계의 한계를 더 끌어올릴 수 있을지에 대해 고민하게 되었다. 이를 해결하기 위해, 저품질 잔기(residue)를 정밀하게 개선하는 지식 인식 모듈을 제안한다. 또한, 학습 시간을 50% 이상 절약할 수 있는 메모리 검색 기반의 메커니즘을 도입하였다. 제안한 방법은 CATH, TS50, TS500 데이터셋에서 광범위하게 평가되었으며, 그 결과 Knowledge-Design 방법은 기존 PiFold 방법에 비해 CATH 데이터셋에서 약 9% 높은 성능을 달성하였다. 특히 Knowledge-Design은 CATH, TS50, TS500 벤치마크에서 처음으로 60% 이상의 복구율을 달성한 방법이다. 추가적인 분석을 통해 제안된 방법의 효과성도 입증하였다. 코드는 공개될 예정이다.