11일 전

BioBART: 생물의학용 생성형 언어 모델의 사전학습 및 평가

Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, Sheng Yu
BioBART: 생물의학용 생성형 언어 모델의 사전학습 및 평가
초록

사전 훈련된 언어 모델은 자연어 처리 분야에서 중요한 기반 역할을 해왔다. 최근 들어, 도메인 내 사전 훈련이 다양한 도메인 특화 하류 작업에 긍정적인 영향을 미치는 것으로 나타났다. 생물의학 분야에서는 자연어 생성(NLG) 작업이 매우 중요하지만, 여전히 연구가 부족한 상태이다. 일반 도메인에서는 제약된 언어 생성 또는 언어 프롬프팅을 통해 자연어 이해(NLU) 작업을 NLG 문제로 접근함으로써 만족스러운 성능을 달성할 수 있다. 본 연구에서는 생물의학 도메인 내 생성형 언어 모델의 부족과 체계적인 생성형 하류 평가 벤치마크의 부재가 연구 공동체의 발전을 저해하고 있음을 강조한다. 이에 따라, 본 연구에서는 BART를 생물의학 도메인에 적합하도록 조정한 생성형 언어 모델인 BioBART를 제안한다. 우리는 대화, 요약, 엔터티 연결, 명명된 엔터티 인식 등 다양한 생물의학 자연어 생성 작업을 통합하여 수집하였다. PubMed 초록 데이터셋을 기반으로 사전 훈련된 BioBART는 BART 대비 향상된 성능을 보였으며, 여러 작업에서 강력한 벤치마크를 설정하였다. 또한, BioBART의 사전 훈련 작업에 대한 아블레이션 연구를 수행한 결과, 문장 순서 변경(task)이 하류 작업에 부정적인 영향을 미치는 것으로 확인되었다.

BioBART: 생물의학용 생성형 언어 모델의 사전학습 및 평가 | 최신 연구 논문 | HyperAI초신경