17日前

MediSwift：効率的なスパース事前学習バイオメディカル言語モデル

Vithursan Thangarasa, Mahmoud Salem, Shreyas Saxena, Kevin Leong, Joel Hestness, Sean Lie

要約

大規模言語モデル（LLM）は通常、さまざまな分野にわたる一般向けのデータを用いて訓練されるが、近年、分野特化型LLMの急増が見られ、特定のタスク（例：バイオメディスン分野）において汎用モデルを上回る性能を発揮する可能性が示されている。分野特化型の事前学習は効率性を向上させ、モデルのサイズを小型化するが、これらのLLMを訓練するための計算コストは依然として高く、予算面での課題を引き起こしている。本研究では、分野特化型のバイオメディスンテキストデータを用いたスパースな事前学習を活用する、医療分野向けLLM「MediSwift」を提案する。事前学習段階で最大75％の重みスパース性を導入することで、訓練に必要なFLOPs（浮動小数点演算回数）を2～2.5倍削減する。特に、すべてのスパース事前学習は、非構造的重みスパース性の加速効果を実現するように設計されたCerebras CS-2システム上で実施された。これにより、MediSwiftモデルの訓練効率が著しく向上した。その後の密なファインチューニングおよび戦略的なソフトプロンプティングを経ることで、MediSwiftモデルは70億パラメータ以下の既存LLMを上回り、PubMedQAを含むバイオメディスン分野のタスクにおいて、効率性と精度のバランスにおいて新たなベンチマークを樹立した。本研究の結果から、スパース事前学習と密なファインチューニング、およびソフトプロンプティングの組み合わせが、専門分野において高性能かつ計算効率の高いモデルを構築する有効な手法であることが示された。