F5C-finder: mRNA에서 5-포름일시티딘 변형을 예측하기 위한 설명 가능하고 앙상블된 생물학적 언어 모델

5-포름일시토신(5-formylcytidine, f5C)은 널리 퍼져 있으며 동적으로 조절되는 에피게네틱 변형으로, 다양한 생물학적 과정에서 중요한 역할을 합니다. 그러나 전통적인 f5C 검출 실험 방법들은 종종 노동 집약적이며 시간이 많이 소요되므로, 트랜스크립트 전반에 걸친 f5C 위치를 포괄적으로 매핑하는 능력이 제한됩니다. 계산적 접근 방식은 비용 효율적이고 고속 처리가 가능한 대안을 제공하지만, 현재까지 f5C 인식 모델은 개발되지 않았습니다. 자연어 처리에서 언어 모델의 영감을 받아 본 연구에서는 다중 헤드 어텐션(multi-head attention)을 활용하여 f5C를 식별하기 위한 앙상블 신경망 기반 모델인 f5C-finder를 제시합니다. 5개의 다른 특성 추출 방법을 사용하여 5개의 개별 인공 신경망을 구성하였으며, 이들 네트워크는 이후 앙상블 학습을 통해 통합되어 f5C-finder를 만들었습니다. 10-폴드 크로스 밸리데이션과 독립 테스트 결과, f5C-finder는 각각 AUC 0.807과 0.827로 최고 수준(state-of-the-art, SOTA)의 성능을 달성함을 보여주었습니다. 이 결과는 생물학적 언어 모델이 게놈 내부의 순서(순차적)와 기능적 의미(의미론적)를 모두 포착하는 데 효과적임을 강조합니다. 또한 내장된 해석 가능성이 우리에게 모델이 무엇을 배우고 있는지 이해할 수 있게 하여, 주요 순차적 요소를 식별하고 그들의 생물학적 기능에 대한 더 깊은 탐구 사이의 연결 고리를 만들어줍니다.