CoTox: 사고의 흐름 기반 분자 독성 추론 및 예측

약물 독성은 제약 개발에서 여전히 주요한 과제로 남아 있다. 최근 기계학습 모델은 in silico 독성 예측 성능을 향상시켰지만, 주석 데이터에 의존하고 해석 가능성(해석가능성)이 부족하여 실제 적용에 한계가 있다. 이러한 한계는 복잡한 생물학적 메커니즘에 의해 유도되는 장기 특이적 독성을 정확히 포착하지 못하는 데 기인한다. 대규모 언어 모델(Large Language Models, LLM)은 단계적 추론과 텍스트 데이터 통합을 통해 유망한 대안을 제시하고 있으나, 기존 접근법은 생물학적 맥락이 부족하고 추론 과정의 투명성이 낮다는 문제가 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 체계적 추론(chain-of-thought, CoT)을 활용한 LLM과의 통합을 통해 다중 독성 예측이 가능한 새로운 프레임워크인 CoTox를 제안한다. CoTox는 화학 구조 데이터, 생물학적 경로, 그리고 유전자 온톨로지(Gene Ontology, GO) 용어를 결합하여 단계적 추론을 통해 해석 가능한 독성 예측을 생성한다. GPT-4o를 활용한 실험을 통해 CoTox가 전통적인 기계학습 및 딥러닝 모델보다 우수한 성능을 보임을 입증하였다. 또한 다양한 LLM을 대상으로 성능을 평가하여 CoTox가 어느 모델에서 가장 효과적인지 파악하였다. 더불어, SMILES 표현보다 LLM이 더 쉽게 이해할 수 있는 IUPAC 명명법을 활용하여 화학 구조를 표현할 경우, 모델의 추론 능력이 향상되고 예측 성능도 개선됨을 발견하였다. 약물 개발 현장에서의 실용성을 입증하기 위해, 관련 세포 유형에 약물을 처리하는 시뮬레이션을 수행하고, 그 결과로 도출된 생물학적 맥락을 CoTox 프레임워크에 통합하였다. 이 접근법을 통해 CoTox는 생리학적 반응과 일치하는 독성 예측을 생성할 수 있었으며, 사례 연구를 통해 이를 확인할 수 있었다. 본 연구 결과는 LLM 기반 프레임워크가 해석 가능성 향상과 초기 단계의 약물 안전성 평가 지원에 큰 잠재력을 지닌다는 점을 시사한다. 본 연구에서 사용된 코드 및 프롬프트는 https://github.com/dmis-lab/CoTox 에 공개되어 있다.