11일 전

MolReFlect: 분자와 텍스트 간의 세밀한 컨텍스트 내 정렬을 향해

{Qing Li, Yuqiang Li, Dongzhan Zhou, Wenqi Fan, Di Zhang, Jingdi Lei, Wei Liu, Yunqing Liu, Jiatong Li}
MolReFlect: 분자와 텍스트 간의 세밀한 컨텍스트 내 정렬을 향해
초록

분자 발견은 우리가 복용하는 약물부터 사용하는 재료에 이르기까지 다양한 분야에 영향을 미치는 핵심 연구 분야이다. 최근 대규모 언어 모델(Large Language Models, LLMs)이 분자의 이해 및 생성에 널리 활용되고 있지만, 분자와 그에 해당하는 설명 문장 간의 정확한 대응 관계(alignments)는 여전히 중요한 과제로 남아 있다. 기존의 연구들은 분자를 일반적인 SMILES 문자열이나 분자 그래프로 간주하는 경우가 많아, 분자의 부분 구조와 설명적 텍스트 표현 간의 미세한 수준의 대응 관계를 간과하고 있다. 이러한 미세한 대응 관계는 정확하고 해석 가능한 예측을 가능하게 하는 데 핵심적인 역할을 한다. 본 연구에서는 이러한 문제를 해결하기 위해, 분자와 설명 문장 간의 미세한 수준에서 맥락을 고려한 대응 관계를 수행할 수 있도록 설계된 새로운 교사-학생 틀인 MolReFlect을 제안한다. 제안하는 방법은 먼저 더 큰 규모의 교사 LLM을 활용하여, 분자 설명 문장이나 SMILES 문자열에서 중요한 표현을 직접 추출하고, 이를 해당 분자의 부분 구조나 특성과 연결함으로써 세부적인 대응 관계를 레이블링한다. 이러한 초기 레이블링을 보정하기 위해, '컨텍스트 기반 선택적 반성(In-Context Selective Reflection)'을 제안한다. 이는 이전 추출 결과를 컨텍스트 예시로 가져와 교사 LLM이 이를 기반으로 반성하도록 유도하고, 그 결과와 기존 추출 결과 중에서 더 작은 규모의 학생 LLM이 적절한 선택을 하도록 하는 방식이다. 마지막으로, '사고의 흐름 기반 컨텍스트 분자 튜닝(Chain-of-Thought In-Context Molecule Tuning)'을 통해 학생 LLM의 학습 과정을 강화하며, 미세한 대응 관계와 사고의 흐름을 포함한 추론 과정을 통합한다. 실험 결과, MolReFlect는 Mistral-7B와 같은 LLM 모델이 기존 베이스라인을 크게 능가하며 ChEBI-20 데이터셋에서 최고 성능(SOTA)을 달성함을 보였다. 본 연구의 기여는 단순히 분자-설명 문장 번역 작업에서 LLM의 생성 능력을 향상시키는 데 그치지 않고, 더 해석 가능한 프레임워크 구축에 기여한다는 점에서 의미가 크다.

MolReFlect: 분자와 텍스트 간의 세밀한 컨텍스트 내 정렬을 향해 | 최신 연구 논문 | HyperAI초신경