16일 전
BioLay_AK_SS: BioLaySumm에서 대규모 언어 모델의 두 단계 미세조정을 통한 도메인 적응을 활용한 생물의학 대중 요약 생성
{Seba Susan, Akanksha Karotia}

초록
일반인을 위한 과학 요약은 필수적이지만 도전적인 과제이다. 이는 전문가가 아닌 대중이 최신 과학 지식을 쉽게 이해하고 갱신할 수 있도록 과학 정보를 단순화하는 데 목적이 있다. 본 연구는 2024년 ACL에서 개최된 BioNLP 워크숍의 공동 과제인 ‘생명과학 연구 논문에 대한 일반인용 요약(Lay Summarization of Biomedical Research Articles)’에 참여하여, 대규모 언어 모델(LLM)을 활용한 생물의학 문헌에 대한 추상적 요약(abstract summarization)에 대해 종합적인 평가를 수행하였다. 평가에는 주최 측이 제공한 eLife 및 PLOS 데이터셋을 기반으로, 관련성, 가독성, 사실성의 세 가지 범주에 걸쳐 총 10개의 평가 지표를 활용하였다. 우리는 생물의학 과학 논문에 대한 일반인용 요약을 위한 이중 단계 프레임워크를 개발하였다. 첫 번째 단계에서는 주어진 데이터셋에 대해 미세조정(fine-tuning)된 BART 및 PEGASUS LLM을 사용하여 요약문을 생성하였다. 두 번째 단계에서는 생성된 요약문들을 통합하여 BioBART에 입력한 후, 동일한 데이터셋에 대해 다시 미세조정하였다. 연구 결과, 일반적인 LLM과 도메인 특화 LLM을 결합함으로써 요약 성능이 향상됨을 확인하였다.