MIT 연구진, 단백질 언어 모델의 '흑상자' 열고 생물학적 통찰 도출
2일 전
미국 MIT 연구진이 단백질 언어 모델의 내부 작동 원리를 밝히는 데 성공했다. 기존 단백질 예측 모델은 높은 정확도를 보이지만, 어떤 특징을 기반으로 결정을 내리는지 알 수 없는 ‘블랙 박스’였으나, 이번 연구에서 연구진은 희소 오토인코더(sparse autoencoder) 기술을 도입해 모델 내부의 신경망 노드가 어떤 단백질 특징을 인식하는지 해석할 수 있게 했다. 이 기술은 단백질의 아미노산 서열을 분석하는 모델에서, 정보를 더 많은 노드에 분산시켜 각 노드가 특정 기능(예: 이온 수송, 대사 과정 등)을 담당하도록 만든다. 이후 AI 어시스턴트 클로드를 활용해 수천 개의 단백질 표현을 분석해 각 노드가 어떤 생물학적 기능을 반영하는지 명확히 설명할 수 있게 됐다. 이는 약물 타겟 선정이나 백신 개발 시 모델 선택과 입력 최적화에 도움을 주며, 향후 더 강력한 모델을 통해 기존 생물학 지식을 넘어서는 새로운 발견도 가능할 전망이다. 연구는 국립보건원(NIH)의 지원을 받았다.