2달 전

BioT5: 생물학에서 화학적 지식과 자연어 연관성을 활용한 모달 간 통합 강화

Qizhi Pei; Wei Zhang; Jinhua Zhu; Kehan Wu; Kaiyuan Gao; Lijun Wu; Yingce Xia; Rui Yan
BioT5: 생물학에서 화학적 지식과 자연어 연관성을 활용한 모달 간 통합 강화
초록

최근 생물학 연구의 발전은 분자, 단백질, 그리고 자연어를 통합하여 약물 탐색을 강화하는 데 활용되고 있습니다. 그러나 현재 모델들은 무효한 분자 SMILES 생성, 맥락 정보의 부족한 활용, 구조화된 지식과 비구조화된 지식의 동등한 처리 등의 여러 제한점을 보이고 있습니다. 이러한 문제들을 해결하기 위해, 우리는 $\mathbf{BioT5}$를 제안합니다. $\mathbf{BioT5}$는 화학적 지식과 자연어 연관성을 포함하여 생물학에서의 다중 모달 통합을 풍부하게 하는 포괄적인 사전 학습 프레임워크입니다. $\mathbf{BioT5}$는 SELFIES를 사용하여 $100\%$ 안정적인 분자 표현을 제공하며, 비구조화된 생물학 문헌에서 생물 엔티티 주변의 맥락에서 지식을 추출합니다. 또한, $\mathbf{BioT5}$는 구조화된 지식과 비구조화된 지식을 구분하여 정보를 더 효과적으로 활용합니다. 미세 조정 후, BioT5는 다양한 작업에서 우수한 성능을 보여주며, 생물 엔티티의 근본적인 관계와 특성을 포착하는 강력한 능력을 입증하였습니다. 우리의 코드는 $\href{https://github.com/QizhiPei/BioT5}{Github}$에서 확인할 수 있습니다.

BioT5: 생물학에서 화학적 지식과 자연어 연관성을 활용한 모달 간 통합 강화 | 최신 연구 논문 | HyperAI초신경