BioMedGPT:バイオメディスン向けオープン型マルチモーダル生成事前学習Transformer

基礎モデル(Foundation Models, FMs)は、さまざまな分野における多数の下流タスクにおいて顕著な性能を示している。しかし、汎用的なFMsは、特定の分野における独自の学習データにアクセスが限られているため、ドメイン特有の問題に対処する際に課題に直面することが多い。特に医薬分野では、分子、タンパク質、細胞といった多様な生物学的モダリティが「生命の言語」として表現されており、これらは人間の自然言語と大きなモダリティギャップを示している。本論文では、生命の言語と人間の自然言語の間のギャップを埋めるために、医薬分野向けのオープンな多モダリティ生成事前学習トランスフォーマー(Generative Pre-trained Transformer, GPT)であるBioMedGPTを提案する。BioMedGPTは、自由なテキストによる入力によって、多様な生物学的モダリティと容易に「コミュニケーション」できる点が特徴であり、世界的に初めての試みである。BioMedGPTは、大規模な生成型言語モデルであるBioMedGPT-LMを用いて、異なる生物学的モダリティと自然言語を統合・アライメントする。本研究では、分子、タンパク質、自然言語の特徴空間を統一的に表現するBioMedGPT-10Bを公開する。このモデルは、微調整(fine-tuning)により、医薬分野における質問応答(QA)タスクにおいて、人間やより大きな汎用的基礎モデルと同等またはそれ以上の性能を達成している。また、分子QAおよびタンパク質QAタスクにおいても有望な性能を示しており、新薬や治療標的の発見を著しく加速する可能性を示している。さらに、BioMedGPT-LM-7Bは、Llama2をベースとした医薬分野初の大規模生成型言語モデルであり、商業利用にも適した特性を持つ。BioMedGPT-10BおよびBioMedGPT-LM-7Bの両モデルは、研究コミュニティにオープンソースとして公開されている。併せて、多モダリティ間のアライメントを目的として丁寧に整備されたデータセットであるPubChemQAおよびUniProtQAも公開している。本研究で開発されたすべてのモデル、コード、データセットは、\url{https://github.com/PharMolix/OpenBioMed} にて公開されている。