12日前
BioLay_AK_SS について:大規模言語モデルを用いた生命科学分野の通俗的要約生成におけるドメイン適応としての二段階微調整
{Seba Susan, Akanksha Karotia}

要約
簡潔な要約作成は、専門外の人々に科学的情報をわかりやすく伝える上で不可欠である一方で、実現は困難である。これは最新の科学的知見を一般の人々が理解し、最新情報を把握できるようにするための重要なプロセスである。本研究では、ACL 2024で開催されたBioNLPワークショップにおける共通課題「バイオ医科学研究論文の一般向け要約(Lay Summarization of Biomedical Research Articles)」(Goldsack他, 2024)に参加し、大規模言語モデル(LLM)を用いたバイオ医科学文献の抽象的要約(abstractive summarization)について包括的な評価を行った。主催者から提供されたeLifeおよびPLOSデータセットを用いて、関連性、可読性、事実性の3つのカテゴリに分類される10種類の評価指標を用いて、モデルの性能を定量的に分析した。本研究では、バイオ医科学論文の一般向け要約を実現するための二段階フレームワークを提案した。第一段階では、提供されたデータセット上で微調整(fine-tuning)を行ったBARTおよびPEGASUSというLLMを用いて要約を生成した。第二段階では、第一段階で得られた要約を統合し、それをBioBARTに入力した上で、同じデータセット上で再び微調整を行った。実験の結果、汎用的LLMとドメイン特化型LLMを組み合わせることで、要約の品質が向上することが明らかになった。