13일 전

Mol2Lang-VLM: 다중모달 융합을 통한 분자 캡션 생성을 위한 시각 및 텍스트 지도형 생성형 사전학습 언어 모델

{and Balachandran Manavalan, Nguyen Nguyen, Nhat Truong Pham, Duong Tran}
Mol2Lang-VLM: 다중모달 융합을 통한 분자 캡션 생성을 위한 시각 및 텍스트 지도형 생성형 사전학습 언어 모델
초록

이 논문은 다중모달 특징을 활용하여 생성형 사전 훈련 언어 모델을 분자 설명 생성에 맞게 개선하는 Mol2Lang-VLM이라는 보완된 방법을 제안한다. 제안하는 방법은 Transformer 기반 아키텍처의 인코더 및 디코더 블록에 제3의 서브레이어를 추가함으로써, 모델의 성능을 향상시킨다. 구체적으로, 인코더에는 SELFIES 문자열과 분자 이미지의 특징을 융합하는 서브레이어를 삽입하고, 디코더에는 SMILES 문자열과 해당 설명 텍스트의 특징을 융합하는 서브레이어를 도입한다. 또한, 일반적인 다중 헤드 어텐션 대신 크로스 다중 헤드 어텐션을 사용하여 디코더가 인코더의 출력을 주의 집중할 수 있도록 함으로써, 인코딩된 맥락 정보를 효과적으로 통합하여 보다 정확하고 자연스러운 설명 생성을 가능하게 한다. CheBI-20 및 L+M-24 기준 데이터셋에서 수행된 성능 평가 결과, 기존 방법들에 비해 Mol2Lang-VLM이 더 높은 정확도와 품질을 달성함을 입증하였다. 본 연구의 코드와 사전 처리된 데이터는 다음 링크에서 공개되어 있다: https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/.