Command Palette
Search for a command to run...
독일 연구팀은 단백질 서열, 3차원 구조 및 기능적 특성에 대한 데이터를 통합하여 메트릭 학습을 기반으로 인간 E3 유비퀴틴 리가아제의 "전체적인 모습"을 구축했습니다.

생체 내에서 세포 단백질의 적절한 분해와 재생은 단백질 항상성 유지에 매우 중요합니다. 유비퀴틴-프로테아좀 시스템(UPS)은 신호 전달 및 단백질 분해를 조절하는 핵심 메커니즘입니다. 이 시스템에서 핵심 촉매 단위인 E3 유비퀴틴 리가아제는 특정 기질을 인식하고 유비퀴틴 표지화를 촉매하여 단백질 분해, 위치 및 기능 상태를 조절합니다. 또한, E3 리가아제는 면역 및 염증 경로도 조절합니다. 조직 특이적 발현과 발달 및 대사 증후군(암 진행 포함)과의 연관성 때문에 E3 리가아제는 특히 기존에 표적화가 어려웠던 질환에 대한 유망한 약물 표적으로 주목받고 있습니다.
E1 효소(약 10종)와 E2 효소(약 50종)에 비해 인간 E3 리가아제는 훨씬 더 많은 수(약 600종)가 확인되었습니다. 그럼에도 불구하고, 많은 인간 E3 리가아제는 아직 부분적으로만 특성이 규명되었으며, 상당수는 가설 단계에 있거나 아직 알려지지 않은 상태입니다. 현재까지,연구 대상인 E3 리가아제들은 높은 이질성을 나타낸다.이러한 특성으로 인해 E3 리가제는 가장 다양한 효소 종류 중 하나가 되었으며, 이는 패턴 인식 및 대규모 연구에 병목 현상을 초래합니다. 따라서 인간 E3 리가제 게놈(인간 게놈에 의해 암호화된 모든 E3 리가제 유전자)에 대한 상세한 특성 분석 및 연구는 이들의 생물학적 기능을 종합적으로 이해하는 데 매우 중요합니다.
이러한 맥락에서,독일 괴테대학교의 연구팀이 "인간 E3 리곰"을 분류했습니다.이 시스템은 단백질 서열, 도메인 구성, 3차원 구조, 기능 및 발현 패턴을 포함한 다단계 데이터를 통합합니다.연구팀의 분류 방법은 메트릭 학습 패러다임을 기반으로 하며, E3 패밀리와 하위 패밀리 간의 실제 관계를 파악하기 위해 약지도 학습 방식의 계층적 프레임워크를 사용합니다.이 접근 방식은 기존의 E3 효소 분류(RING, HECT 및 RBR 클래스)를 확장하고, 다중 소단위 복합체와 단량체 효소를 구분하며, E3 효소를 기질 및 잠재적 약물 표적에 연결합니다.
"다중 스케일 분류를 통해 인간 E3 리고미드의 복잡성을 해독하다"라는 제목의 관련 연구 결과는 네이처 커뮤니케이션즈(Nature Communications)에 게재되었습니다.
연구 하이라이트:
* 기존 E3 리가아제의 도메인 구조, 3차원 구조, 기능, 기질 네트워크 및 소분자 상호작용을 분류 체계에 매핑하여 일반적인 통찰력과 계열별 특성을 파악합니다.
* 개발된 다중 스케일 분류 체계는 전형적인 E3 메커니즘과 비전형적인 E3 메커니즘을 모두 포괄하여 E3 리가아제의 광범위한 생물학적 특성을 이해하기 위한 완벽한 로드맵을 제공합니다.
* E3 기질 네트워크를 기반으로 한 약물 개입 전략 개발을 위한 새로운 길을 열어줍니다.

서류 주소:
https://www.nature.com/articles/s41467-025-67450-9
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "E3 효소"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.
더 많은 AI 프런티어 논문:
https://hyper.ai/papers
데이터셋: 인간 E3 유비퀴틴 리가제 데이터 구축
연구팀은 먼저 8개의 독립적인 데이터 소스에서 얻은 인간 E3 유비퀴틴 리가제 데이터를 통합했습니다.기존 문헌 보고서와 공개 데이터베이스(E3Net, UbiHub, UbiNet 2.0, UniProt, BioGRID 등)를 포함하여 총 1,448개의 단백질 항목으로 구성된 예비 데이터 세트를 구축했습니다. 다양한 출처의 데이터를 상호 비교하고 일관성 점수를 매겨 중복 및 잠재적 위양성 항목을 제거했습니다. 이후 InterPro에서 제공하는 RING, HECT, RBR 촉매 도메인 특징을 이용하여 신뢰도가 높은 462개의 촉매 E3 유비퀴틴 리가제를 선별하여 최종 인간 E3 리가제 게놈을 완성했습니다.
다중 소단위 E3 복합체(예: 컬린-RING 리가제)에서, 세 가지 기능적으로 구별되는 소단위(스캐폴드 단백질, 압타머 단백질, 수용체 단백질)는 함께 작용하여 E2~유비퀴틴화 분자를 특정 기질에 국소화합니다. 크고 단단하며 중앙에 위치한 스캐폴드 단백질(예: 컬린 계열, Cul1~Cul5)은 촉매 RING 핑거 도메인 소단위와 압타머/수용체의 결합 부위에 동시에 결합하여 전체 리가제 복합체를 구성합니다. 압타머 단백질은 모듈들을 연결하여 스캐폴드 단백질의 N-말단 결합면을 개별 기질 수용체에 연결합니다. 수용체 단백질은 기질 특이성을 결정하며, 기질의 분해 신호(데그론)를 직접 인식하고 결합하여 어떤 기질이 유비퀴틴화될지 결정합니다(예: Skp2, Keap1, VHL).연구팀은 151개의 압타머, 106개의 수용체, 8개의 스캐폴드 단백질 등 세 가지 하위 단위를 독립적으로 주석 처리하고 분류했습니다.또한 그들은 단백질-단백질 상호작용(PPI)을 이용하여 다중 소단위 E3의 기질을 매핑했습니다.
이후 촉매 도메인 선별 단계에서 연구진은 촉매 능력을 핵심 기준으로 삼아 후보 단백질을 엄격하게 선별했습니다.InterPro와 같은 도메인 데이터베이스를 사용하여, 해당 시스템은 RING, HECT, RBR을 포함하여 E3 활성과 직접적으로 관련된 주요 촉매 도메인을 식별했습니다.이러한 도메인을 명시적으로 포함하고 서열 및 구조 수준에서 유비퀴틴 결합 기능을 지원하는 단백질만 최종 "촉매 E3 리가제"를 구성하는 데 사용됩니다. 이 과정을 통해 조절에만 관여하고 직접적인 촉매 능력이 없는 보조 단백질이 효과적으로 제거되어 핵심 E3 세트의 기능적 일관성이 보장됩니다.
메트릭 학습 기반의 다중 스케일 분류 프레임워크
인간 E3 리가아제 게놈 내의 복잡한 관계를 파악하기 위해,연구진은 머신러닝 기법을 사용하여 새로운 거리 측정 기준을 학습했습니다.전체적인 틀은 다음 다이어그램에 나와 있습니다.

① 다중 스케일 거리 측정
연구진은 12가지 서로 다른 거리를 계산하여 E3 리가아제 간의 쌍별 관계를 인코딩했습니다.이러한 거리는 1차 서열, 도메인 구조, 3차 구조, 기능, 세포 내 위치 및 세포주/조직 발현을 포함한 여러 세부 수준을 포괄합니다.아래 그림과 같이 비교 및 조합을 위해 모든 거리 측정값은 [0,1] 구간으로 스케일링됩니다.

* 서열 수준: 로컬 매칭 점수(LMS) 거리(쌍별 매칭 제외)와 정렬 기반 γ 거리를 사용했습니다.
* 도메인 아키텍처 수준에서는 자카드 거리, 굿맨-크루스칼 γ 거리, 도메인 반복 거리의 세 가지 거리를 계산했습니다.
* 3D 구조 수준: AlphaFold2 모델 TM-score 사용
* 기능 수준: 단백질과 P 및 Q 사이의 기능적 거리는 분자 기능(MF), 생물학적 과정(BP) 및 세포 구성 요소(CC)의 세 가지 온톨로지를 포괄하는 GO 주석의 의미 유사성을 사용하여 측정됩니다.
* 세포 내 위치 거리
* 조직과 세포주 간의 공동 발현 거리
② 메트릭 최적화, 클러스터링, 부트스트래핑 및 분류
네 가지 주요 거리(γ, Jaccard, 구조 및 분자 기능)는 가중치가 부여되고 통합되며, 아래 그림과 같이 약지도 학습과 요소 중심 유사성 지수(SEC)를 통해 가중치가 최적화되어 최적의 결합 지수를 얻습니다.

워드의 최소 분산 방법을 사용하여 계층적 군집 분석을 수행했습니다.지지도는 부트스트래핑 방법을 사용하여 계산되었으며, 이를 통해 최종 E3 덴드로그램이 생성되었습니다. 최적의 클러스터는 트리 분할 임계값 h = 0.25를 사용하여 얻었으며, 아래 그림과 같이 462개의 E3 클러스터를 10개의 RING 패밀리, 2개의 HECT 패밀리, 1개의 RBR 패밀리로 체계적으로 나누었습니다.

각 패밀리는 하위 패밀리와 비정상 단백질을 식별하기 위해 서열 및 도메인 특징에 대한 추가적인 수동 분석을 거칩니다.
③ 소분자 클러스터링 및 결합 확률
소분자 클러스터링을 위한 통합 2D UMAP 투영국소 밀도 피크를 조합하여 20개의 대표적인 소형 분자 클러스터를 식별했습니다.각 클러스터가 E3 단백질에 결합할 확률은 로그 변환된 성향(LPij)으로 정량화되었으며, 이는 후속 PROTAC 개발 및 표적 소분자 설계에 대한 지침을 제공합니다.
인간 E3 리가제 게놈의 무결성에 대한 상세한 평가가 제공되었습니다.
①인간 E3 리가제 게놈의 상세한 구성
기존 연구에서 E3 시스템을 분류할 때 사용된 다양한 전략과 일관성 없는 정의로 인해 발생하는 문제점을 해결하기 위해, 본 연구팀은 E3 시스템의 촉매 구성 요소를 하나 이상의 촉매 도메인을 포함하는 폴리펩티드 서열로 명확하게 정의했습니다. 이러한 객관적인 기준을 통해 E3 시스템에 대한 적절한 주석 및 표적 분석이 가능해졌습니다.결과적으로 연구진은 전체 데이터 세트에서 462개의 폴리펩티드 서열에 적어도 하나의 촉매 도메인이 포함되어 있음을 발견했습니다.이러한 폴리펩티드들은 아래 그림에서 보이는 것처럼 정교하게 조직된 인간 E3 리가제 게놈을 구성합니다.

연구진은 분류 과정의 신뢰성을 검증하기 위해 서로 다른 출처의 데이터 세트에서 각 단백질의 발생 빈도를 기반으로 합의 점수를 정의했습니다.결과에 따르면 HECT 및 RBR 클래스 E3 리가제는 데이터 세트에서 높은 일관성을 보였습니다(합의 점수 ≥ 0.6, 주황색 및 보라색 막대).아래 그림에서 볼 수 있듯이 RING 클래스에 대한 합의 점수(녹색 막대)는 넓게 분포되어 있어 주석 작업에 어려움이 있음을 나타냅니다.

이 방법을 사용하여 연구자들은 오탐지와 진음성을 최소화하고, 촉매 활성이 매우 높은 신뢰할 수 있는 E3 효소를 포함했으며, 유사 E3 효소 및 촉매 활성이 검증되지 않은 다른 E3 효소까지 고려하여 인간 E3 리가제 게놈의 무결성에 대한 상세한 평가를 제공했습니다.
② 인간 E3 리가아제의 기능적 분화
연구진은 인간 E3 리가아제의 기능을 평가하기 위해 세포 생존율을 주요 표현형으로 사용하여 CRISPR-Cas9를 통해 UPS 유전자를 삭제하는 실험을 진행했습니다. 그 결과 다음과 같은 사실이 밝혀졌습니다...세포 생존에 필수적인 것으로 확인된 E3 구성 요소는 촉매 작용을 하는 53개와 비촉매 작용을 하는 32개였다.아래와 같이 표시됩니다.

53개의 핵심 E3 단백질에 대한 GO 분석 결과, 아래 그림에서 볼 수 있듯이 핵 구성 요소와 DNA 손상, 복제 및 복구 과정에 유의미하게 많이 관여하는 것으로 나타났습니다. 이는 이들이 게놈 무결성 유지 및 핵 조절에 핵심적인 역할을 한다는 것을 시사합니다. 이러한 결과는 세포 생존에 필수적인 E3 단백질 구성 요소를 밝혀냅니다.

Metascape를 이용하여 13개의 E3 패밀리에 대한 GO 농축 분석을 수행하고, Cytoscape를 이용하여 네트워크를 시각화했습니다. 결과는 다음과 같습니다...각기 다른 패밀리는 기질 선택, 세포 내 위치 및 촉매 기능에서 뚜렷한 역할을 수행합니다.아래 그림에서 볼 수 있듯이, 예를 들어 RBR 계열 구성원인 RNF14, RNF144A 및 PRKN은 K6 연결 유비퀴틴에 특이적입니다. K6 연결 사슬은 정체된 RNA-단백질 교차 결합 복합체(RNF14), 인터페론 신호 전달을 활성화하는 DNA 감지 어댑터 STING(RNF144A), 그리고 제거를 위한 손상된 미토콘드리아(PRKN)를 표지할 수 있습니다. 마찬가지로,TRIM E3(RING5)는 항바이러스 선천성 면역 반응에 현저하게 풍부하게 존재하며, 세포 내 패턴 인식 수용체의 활성을 조절합니다.예를 들어 RIG-1 및 MDA5에 의해 매개되는 반응과 같은 것들입니다.

④ 인간 E3 리가아제의 약물 가능성 지도
근접작용에 기반한 잠재적인 치료 경로를 탐색하기 위해 연구자들은 알려진 단백질 분해 표적 키메라(PROTAC) 및 E3 결합체에서 유래한 기존 E3 오퍼랜드를 다양한 E3 및 그 계열에 매핑했습니다. 현재까지 기존 E3 오퍼랜드로 직접 표적화할 수 있는 단백질은 16개(촉매 E3 9개, 어댑터 7개)에 불과합니다. 설계된 E3 오퍼랜드의 대부분은 어댑터 단백질(예: VHL 및 CRBN)을 표적으로 하는 반면, 촉매 E3(예: XIAP, MDM2/4/7 및 BIRC2/3/7)을 직접 표적으로 하는 것은 극소수에 불과합니다.
본 연구에서 사용된 인간 E3 리가아제를 이용한 최근접 이웃 분석 결과, 상관관계가 높은 5개의 단백질(BIRC8, RN166/181/141 및 UBR2)이 확인되었다.아래와 같이 표시됩니다.

구조적 유사성이 매우 높기 때문에(종종 상동 단백질임), 기존의 E3 오퍼랜드를 재사용하여 이러한 단백질을 표적으로 삼을 수 있습니다.소분자 E3 결합체 매핑을 통해 연구자들은 추가로 25개의 E3 분자와 15개의 비촉매 구성 요소를 표적으로 삼을 수 있는 잠재적인 화합물 세트를 확보하게 되었습니다.이번 발견은 미개척 표적을 밝혀내어 아래 그림과 같이 E3 작용기에 대한 선도 화합물을 합리적으로 설계할 수 있는 길을 열어줍니다.

다중 스케일 프레임워크는 복잡한 생물학적 시스템을 분석하는 데 강력한 도구를 제공합니다.
머신러닝 분야에서 멀티스케일 프레임워크는 서로 다른 추상화 수준 또는 서로 다른 특징 스케일에서 데이터를 처리할 수 있는 모델링 방법 또는 분석 전략을 의미합니다. 이는 고정된 알고리즘이 아니라, 지역적 정보와 전역적 정보, 거친 특징과 세밀한 특징을 통합하여 모델의 표현력과 일반화 능력을 향상시키는 설계 개념입니다.
다중 스케일 분류 프레임워크의 가치는 E3 리가제 계열에 대한 체계적인 검토에만 국한되지 않습니다. 더욱 중요한 의미는 오믹스 통합을 위한 전이 가능하고 확장 가능한 패러다임을 제공한다는 데 있습니다. 이러한 다중 스케일 통합 접근 방식은 다른 다중 모드 오믹스 데이터로 자연스럽게 확장될 수 있도록 하며, 복잡한 생물학적 시스템을 체계적으로 분석하는 보편적인 도구를 제공합니다.
예를 들어, 세포는 생명의 기본 단위이며, 그 기능과 운명은 복잡한 분자 네트워크에 의해 결정됩니다. 기존의 딥러닝 방법은 단일 세포 전사체 데이터에서 세포 유형을 식별하는 데는 뛰어난 성능을 보이지만, 생물학적 해석력이 부족합니다. 2025년 10월 20일, 중국 국가단백질과학센터(베이징)와 칭화대학교의 연구진은 생물학적 사전 지식을 통합하는 다중 스케일 해석 가능 딥러닝 프레임워크인 '셀 디코더(Cell Decoder)'를 제안했습니다.이 기술은 유전자와 경로에서 생물학적 과정에 이르기까지 계층적 특성화 및 추론을 가능하게 하여 단일 세포 수준에서 세포 유형을 해독하는 새로운 접근 방식을 제공합니다. Cell Decoder는 단백질 상호작용 네트워크, 유전자-경로 매핑 및 경로 계층적 관계를 그래프 신경망 아키텍처에 내장하여 다양한 규모의 생물학적 지식 그래프를 구축합니다.연구팀은 공개적으로 이용 가능한 7개의 단일 세포 데이터 세트에서 추출한 인간 및 마우스 샘플을 대상으로 Cell Decoder를 9가지 주요 분석 방법과 체계적으로 비교 평가했습니다. 그 결과, Cell Decoder는 예측 정확도(0.87)와 Macro F1 점수(0.81) 모두에서 1위를 차지했으며, 노이즈 교란, 세포 유형 불균형, 배치 간 분포 변화와 같은 복잡한 조건에서도 안정적인 성능을 유지했습니다.
논문 제목:셀 디코더: 다중 스케일 설명 가능 딥러닝을 이용한 세포 정체성 해독
서류 주소:
https://link.springer.com/article/10.1186/s13059-025-03832-y
장기적인 관점에서, 다중 스케일 프레임워크는 공간 단백질체학 데이터, 소분자 약물 라이브러리, 화학적 공간 정보 등과 더욱 통합될 수 있으며, 이를 통해 기초 생물학 연구, 질병 메커니즘 분석, 그리고 임상 응용 사이의 데이터 장벽을 허물 수 있습니다. 다중 오믹스 데이터가 지속적으로 축적됨에 따라, 이 프레임워크는 생명 과학 연구 및 생의학 혁신에 있어 점점 더 중요한 지원 역할을 수행할 것으로 기대됩니다.
참고문헌:
1.https://www.nature.com/articles/s41467-025-67450-9
2.https://blog.csdn.net/qazplm12_3/article/details/153948711
3.https://link.springer.com/article/10.1186/s13059-025-03832-y








