2달 전

TOMG-Bench: 텍스트 기반 오픈 분자 생성 모델 평가

Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li
TOMG-Bench: 텍스트 기반 오픈 분자 생성 모델 평가
초록

본 논문에서는 대규모 언어 모델(LLM)의 개방형 분자 생성 능력을 평가하기 위한 첫 번째 벤치마크인 텍스트 기반 개방형 분자 생성 벤치마크(TOMG-Bench)를 제안합니다. TOMG-Bench는 분자 편집(MolEdit), 분자 최적화(MolOpt), 사용자 정의 분자 생성(MolCustom)이라는 세 가지 주요 작업을 포함하는 데이터셋으로 구성되어 있습니다. 각 작업은 다시 세 가지 하위 작업으로 나누어져 있으며, 각 하위 작업은 5,000개의 테스트 샘플로 구성됩니다. 개방형 분자 생성의 본질적인 복잡성에 대해 고려하여, 우리는 생성된 분자의 품질과 정확성을 측정하는 자동 평가 시스템도 개발하였습니다. 25개의 LLM에 대한 우리의 포괄적인 벤치마킹 결과는 현재의 한계와 텍스트 안내 기반 분자 발견에서 개선할 수 있는 잠재적인 영역을 드러냈습니다. 또한, TOMG-Bench에서 제기된 도전 과제를 해결하기 위해 제안된 전문 지시 조정 데이터셋인 OpenMolIns의 도움으로, Llama3.1-8B는 모든 오픈 소스 일반 LLM보다 우수한 성능을 보였으며, TOMG-Bench에서 GPT-3.5-turbo보다 46.5% 높은 성능을 나타냈습니다. 우리의 코드와 데이터셋은 https://github.com/phenixace/TOMG-Bench를 통해 이용 가능합니다.

TOMG-Bench: 텍스트 기반 오픈 분자 생성 모델 평가 | 최신 연구 논문 | HyperAI초신경