홍콩과학기술대학교는 단백질 서열에서 다중 금속 결합 부위를 효율적으로 예측하기 위한 융합 신경망 프레임워크를 제안합니다.

特色图像

금속 이온은 생명에 필수적인 역할을 합니다. 아연은 가수분해효소 촉매 작용에서 루이스 산으로 작용하고, 철은 호흡 사슬에서 전자 전달의 핵심 운반체이며, 마그네슘은 RNA가 안정적인 3차 구조로 접히는 데 필수적입니다. 단백질 데이터 뱅크(PDB)에 고해상도 금속단백질 구조가 다수 축적되어 있음에도 불구하고, 금속-단백질 상호작용을 실험적으로 규명하는 데는 여전히 시간과 노력이 많이 들고 비용도 많이 듭니다.따라서 잔류물 수준을 기반으로 한 금속 결합 부위의 계산적 예측이 효과적인 대안 전략이 되었습니다.

기존의 다중 금속 화합물 예측 방법은 구조적 제약으로 인해 심각한 제약을 받고 있으며, 구조 기반 예측기는 계산 비용이 높은 프로그램에 의존하여 실제 적용에 어려움을 겪고 있습니다. 단백질 언어 모델이 유망한 예측 방법으로 떠오르고 있지만, 높은 계산량과 긴 추론 시간으로 인해 실제 적용에 제약이 따릅니다.

이 문제를 해결하기 위해 홍콩과학기술대학 연구팀은 단백질 서열에서 다중 금속 결합 부위를 예측하는 융합 신경망 프레임워크를 제안했습니다.이 프레임워크는 합성곱 신경망(CNN)과 융합 신경망을 결합한 2단계 아키텍처를 사용합니다. 불균형 인식 손실 함수, 통합 평가, 그리고 모듈형 아키텍처를 도입하여 서로 다른 금속의 양성 및 음성 샘플 간의 클래스 불균형과 이들 간의 복잡한 상호작용을 효과적으로 해결합니다. 구조 독립적인 설계를 통해 구조적 입력 없이도 대규모 데이터 세트에 대한 빠르고 견고하며 고품질의 전체론적 예측을 가능하게 하여 금속-단백질 상호작용 마이닝의 잠재력을 크게 향상시킵니다.

관련 연구는 "단백질 서열의 다중 금속 결합 부위를 효율적으로 예측하는 모듈식 융합 신경망 접근법"이라는 제목으로 bioRxiv에 게재되었습니다.

연구 하이라이트:
* CNN과 퓨전 네트워크를 결합한 2단계 퓨전 신경망 프레임워크

가중 이진 교차 엔트로피 손실 함수를 도입함으로써 금속 결합 부위 예측의 클래스 불균형 문제가 효과적으로 처리됩니다.

종이 주소:

https://go.hyper.ai/Y7DNU

공식 계정을 팔로우하고 "다중 금속 결합 부위"에 답글을 남겨 전체 PDF를 받으세요.

더 많은 AI 프런티어 논문: 

https://hyper.ai/papers

안정적이고 대표적인 데이터 세트 구축

연구팀은 학습 및 평가에 적합한 고품질 데이터 세트를 구축하기 위해 기존 MbPA 데이터베이스를 기반으로 2차 처리를 수행했습니다.먼저, MbPA 데이터베이스에서 금속 결합 단백질의 포괄적인 데이터 세트를 검색했습니다. 아연(Zn), 철(Fe), 마그네슘(Mg)과 결합할 수 있는 총 91,593개의 단백질을 스크리닝하여 검증된 결합 부위 정보와 해당 금속 이온을 유지했습니다. 연구팀은 이를 기반으로 시퀀스 정규화 및 정수 인코딩(500개 아미노산의 균일한 길이), 결합 부위의 다중 라벨 주석, 계층화 샘플링(15% 테스트 세트, 85% 개발 세트), 그리고 클래스 불균형 처리를 추가로 완료했습니다. 클래스 불균형 처리에는 클래스 불균형을 해결하는 동시에 금속 특이적 예측 변수를 구현하기 위한 3단계 전처리 및 독립적인 학습 프로세스가 포함되었습니다. 구현 프로세스는 다음과 같습니다. 금속 특이적 라벨 생성, 양성 샘플 계수, 그리고 가중 이진 교차 엔트로피 손실.

* MbPA(Metal Binding Protein Atlas)는 금속 결합 단백질 자원 라이브러리입니다. 현재 이 데이터베이스에는 106,373개의 항목과 440,187개의 사이트가 있으며, 여기에는 54개의 금속 이온과 8,169개의 종(species)이 포함됩니다.


다양한 금속 이온을 결합할 수 있는 단백질 데이터의 하위 집합

2단계 딥러닝 프레임워크와 모듈형 융합

연구팀은 단백질 서열에서 다중 금속 결합 부위를 효율적으로 예측하기 위해 서열 기반의 2단계 딥러닝 프레임워크를 제안했습니다.전반적인 아이디어는 먼저 단일 금속 이온에 대한 독립적인 예측 모델을 학습하여 단일 잔류 확률 맵을 생성하는 것입니다. 이후, 이 맵들은 경량 융합 네트워크를 통해 통합되어 금속간 의존성을 모델링하고 궁극적으로 예측 성능을 최적화합니다.

첫 번째 단계에서는 각 단일 금속(Zn, Fe, Mg)에 대해 1차원 합성곱 신경망(Single-metal CNN)을 사용하여 특정 금속 이온의 위치 결합 확률을 예측했습니다. 앞서 언급한 처리 후, 각 단백질 서열은 500차원 표현으로 균일하게 표현되었습니다. 정수로 인코딩된 잔여물은 64차원 학습 가능 벡터의 임베딩 계층에 매핑되었습니다. 그런 다음, 이 서열은 균일 직사각형 단위(ReLU) 활성화 함수를 사용하여 네 개의 Conv1D 계층(합성곱 커널 수: 512, 256, 128, 64, 커널 크기: 15, 7, 5, 3)을 통과했습니다. 합성곱 계층 뒤에는 드롭아웃 비율이 0.3인 드롭아웃 계층이 추가되었습니다. 합성곱 특징 추출 및 정규화 후, 시퀀스 특징은 시간 분포 완전 연결 계층에 입력되었으며, 이 계층은 시그모이드 활성화 함수를 사용하여 예측된 결합 확률을 비트 단위로 출력합니다.

전반적인 프레임워크

2단계연구팀은 다중 금속 통합 융합 네트워크(Fusion network)를 설계했다.세 가지 금속에 대한 예측은 (Lmax, M) 형태의 텐서로 연결됩니다. 여기서 Lmax는 아미노산 500개이고 금속 채널은 M개입니다. 이 텐서는 256개의 은닉 유닛과 ReLU 활성화 함수를 갖는 완전 연결 계층에 입력되어 각 잔류물 수준에서 금속 특정 특징 간의 비선형 상호 작용을 학습합니다. 그런 다음, 융합 가중치를 정규화하고 과적합을 방지하기 위해 드롭아웃 비율이 0.2인 드롭아웃 계층을 도입합니다. 마지막으로, 밀집 계층에서 M개의 시그모이드 출력을 사용하여 각 잔류물에 대한 Zn, Fe, Mg의 정확한 결합 확률을 제공합니다. 융합 네트워크는 표준 이진 교차 엔트로피를 손실 함수로 사용하고 Adam 옵티마이저로 학습하여 상관 관계 오류를 수정하고 전반적인 정확도를 향상시키는 방법을 학습합니다.

또한 이 프레임워크의 독특한 특징은 단백질 서열 데이터에 전적으로 의존하여 구조에 대한 의존성을 없앤다는 점입니다.이를 통해 단일 NVIDIA A800 GPU에서 전체 프로세스를 1시간 이내에 완료할 수 있으며, 그 효율성은 실험 프로세스와 실시간 매개변수 조정을 가속화하는 데 도움이 됩니다.

다차원적 종합 실험 평가

연구팀은 다차원 지표를 사용하여 실험적 평가를 실시했습니다.이 통합 지표에는 정밀도, 재현율, F1 점수, 매튜스 상관 계수(MCC)가 포함됩니다. 예측 결합 확률에는 결정 임계값 τ가 적용됩니다. 잔류물의 예측 확률이 τ를 초과하면 금속 결합 부위로 분류되고, 그렇지 않으면 비금속 결합 부위로 분류됩니다. 단일 값만 고려하는 평가 방법과 비교할 때, 이 통합 지표 시스템은 클래스 불균형 시나리오에서 프레임워크의 실제 성능을 더 잘 반영합니다.

아래 그림(a)는 각 금속과 거시 평균 F1 점수 및 결정 임계값 τ 간의 관계를 보여줍니다. 결과는 Fe가 예측에서 좋은 성능을 보이며, τ 값이 0.25~0.60일 때 F1 점수가 0.81을 초과함을 보여줍니다. Zn 및 Mg에 대한 단일 금속 모델도 τ = 0.25~0.50 및 0.25~0.60 범위에서 0.79를 초과하는 F1 점수를 달성합니다. 전반적으로 거시 평균 F1 점수는 임계값을 0.40~0.45 사이로 설정할 때 0.855에서 최고치를 기록하며, 이는 모든 금속에 대한 정밀도와 재현율의 균형을 맞추는 데 최적의 선택입니다. 그림(b)는 MCC와 임계값 간의 관계를 보여주며, 심각한 클래스 불균형의 경우에도 프레임워크가 여전히 좋은 균형을 달성할 수 있음을 추가로 보여줍니다.

그림 (c)는 세 가지 금속에 대한 정밀도-재현율 곡선을 보여줍니다. Fe 예측은 높은 재현율 수준에서 높은 정밀도를 유지하여 포괄적인 현장 스크리닝에 적합함을 보여줍니다. Zn과 Mg 예측 지수 또한 우수한 성능을 보이며, 중간 정도의 재현율과 지속적인 정밀도가 요구되는 응용 분야에서 이 프레임워크의 견고성을 보여줍니다.

마지막으로, 그림 (d)는 τ = 0.40 및 0.45의 두 가지 최적 임계값에서 다양한 금속 예측의 정밀도, 재현율 및 F1 점수를 보여줍니다.결과는 이 프레임워크가 다양한 금속의 특성에 따라 유연하게 조정될 수 있음을 보여줍니다. 적용 범위 우선 스크리닝 시나리오에 사용될 수 있으며, 고정밀 실험 검증 요구 사항도 충족할 수 있습니다.

연구팀은 각 건축 구성 요소의 기여도를 평가하기 위해 두 가지 핵심 설계 원칙을 검증하기 위해 체계적인 절삭 실험도 수행했습니다.(1) 가중 이진 교차 엔트로피 손실 함수는 금속 결합 부위 예측에서 클래스 불균형 문제를 처리하는 데 중요합니다. (2) 융합 네트워크 아키텍처는 예측 일관성을 향상시키고 개별 모델이 독립적으로 활용할 수 없는 교차 금속 관계를 포착합니다.

가장 기본적인 단일 CNN 계층부터 시작하여 평균 F1은 0.265에 불과했습니다. 합성곱 계층을 증가시키면서 성능이 크게 향상되었는데, 3계층 CNN은 평균 F1을 0.840으로 증가시켜 계층적 특징 추출의 중요한 역할을 보여주었습니다. 드롭아웃을 도입하자 F1이 0.856으로 증가하여 과적합을 방지하고 일반화를 향상시켰습니다. 클래스 불균형 문제를 해결하기 위해 연구팀은 가중 이진 교차 엔트로피 손실 함수를 설계하여 전체 정확도를 저하시키지 않으면서 재현율을 크게 향상시켰습니다. 마지막으로 퓨전 계층을 추가하여 평균 F1을 0.859로 더욱 향상시켰습니다. 이 퓨전 계층은 금속간 의존성을 효과적으로 모델링하여 잔류물 수준 예측의 정확도와 강건성을 향상시킵니다.


절제 실험 결과

금속-단백질 상호작용 채굴을 가속화하는 새로운 엔진

이 새로운 프레임워크는 금속단백질 주석(annotation)을 발전시켰으며, 금속-단백질 상호작용 분석을 가속화하는 핵심 동력으로 자리 잡고 있습니다. 생물학에서 금속-단백질 상호작용을 탐구하는 것의 중요성은 부인할 수 없으며, 이러한 연구 방향은 상당한 주목을 받고 있습니다. 다양한 연구팀의 학자들이 다양한 관점에서 새로운 접근법과 도구를 적극적으로 탐구하고 있습니다. 두 가지 중요한 업적은 다음과 같습니다.

스위스 로잔 연방 공과대학(EPFL)에서 개발한 두 가지 도구인 Metal3D와 Metal1D가 단백질 구조 내 아연 이온 위치 예측을 개선하기 위해 개발되었습니다. Metal3D 프레임워크는 훈련 데이터를 수정하여 다른 금속으로도 확장할 수 있습니다. 관련 연구인 "Metal3D: 단백질에서 정확한 금속 이온 위치 예측을 위한 일반적인 딥러닝 프레임워크"는 Nature Communications에 게재되었습니다.
서류 주소:
https://www.nature.com/articles/s41467-023-37870-6

arXiv에 게재된 "종양 단백질-금속 결합을 위한 해석 가능한 다중 모드 학습: 진행 상황, 과제, 그리고 전망"이라는 제목의 연구는 머신 러닝을 이용하여 종양 단백질-금속 결합을 예측하는 분야의 최신 연구 성과와 현재 진행 중인 과제를 체계적으로 요약합니다. 또한 효율적인 금속 약물 설계를 위한 두 가지 유망한 방향을 제시합니다. 첫째, 단백질-단백질 상호작용 데이터를 통합하여 금속 결합에 대한 구조적 통찰력을 제공하는 것이고, 둘째, 금속 결합 후 종양 단백질의 구조적 변화를 예측하는 것입니다.
서류 주소:
https://arxiv.org/abs/2504.03847

참조 링크:
1.https://pubs.acs.org/doi/10.1021/cr300014x