11일 전

자동 주석 증강은 분자와 자연어 간 번역 성능을 향상시킨다

Zhiqiang Zhong, Simon Sataa-Yu Larsen, Haoyu Guo, Tao Tang, Kuangyu Zhou, Davide Mottin
자동 주석 증강은 분자와 자연어 간 번역 성능을 향상시킨다
초록

최근 인공지능(AI)을 활용한 생물학적 연구의 발전은 분자 데이터와 자연어를 통합하여 약물 개발 속도를 가속화하는 데 초점을 맞추고 있다. 그러나 고품질의 애노테이션 데이터가 부족함으로써 이 분야의 발전이 제한되고 있다. 본 논문은 대규모 언어 모델을 활용하여 기존 데이터셋을 보완함으로써 AI 학습 성능을 향상시키는 언어 기반 자동 애노테이션 증강 프레임워크인 LA$^3$을 제안한다. 우리는 기존에 잘 정립된 데이터셋의 분자 애노테이션을 체계적으로 재작성함으로써 개선된 데이터셋인 LaChEBI-20를 구축함으로써 LA$^3$의 효과성을 입증하였다. 이 재작성된 애노테이션은 분자의 핵심 정보를 유지하면서 더 다양한 문장 구조와 어휘를 제공한다. LaChEBI-20를 기반으로 기준 아키텍처를 기반으로 한 LaMolT5 모델을 학습시켜 분자 표현과 증강된 애노테이션 간의 매핑을 학습하였다.자연어 기반 de novo 분자 생성 및 분자 캡셔닝(task)에 대한 실험 결과, LaMolT5는 최첨단 모델들을 상회하는 성능을 보였다. 특히 LA$^3$을 도입함으로써 기준 아키텍처 대비 최대 301%의 성능 향상이 이루어졌다. 더불어, 이미지, 텍스트, 그래프 등 다양한 응용 분야에서 LA$^3$의 효과성을 검증함으로써, 그 유연성과 실용성을 입증하였다.

자동 주석 증강은 분자와 자연어 간 번역 성능을 향상시킨다 | 최신 연구 논문 | HyperAI초신경