HyperAIHyperAI

Command Palette

Search for a command to run...

MediSwift:効率的なスパース事前学習バイオメディカル言語モデル

Vithursan Thangarasa Mahmoud Salem Shreyas Saxena Kevin Leong Joel Hestness Sean Lie

概要

大規模言語モデル(LLM)は通常、さまざまな分野にわたる一般向けのデータを用いて訓練されるが、近年、分野特化型LLMの急増が見られ、特定のタスク(例:バイオメディスン分野)において汎用モデルを上回る性能を発揮する可能性が示されている。分野特化型の事前学習は効率性を向上させ、モデルのサイズを小型化するが、これらのLLMを訓練するための計算コストは依然として高く、予算面での課題を引き起こしている。本研究では、分野特化型のバイオメディスンテキストデータを用いたスパースな事前学習を活用する、医療分野向けLLM「MediSwift」を提案する。事前学習段階で最大75%の重みスパース性を導入することで、訓練に必要なFLOPs(浮動小数点演算回数)を2~2.5倍削減する。特に、すべてのスパース事前学習は、非構造的重みスパース性の加速効果を実現するように設計されたCerebras CS-2システム上で実施された。これにより、MediSwiftモデルの訓練効率が著しく向上した。その後の密なファインチューニングおよび戦略的なソフトプロンプティングを経ることで、MediSwiftモデルは70億パラメータ以下の既存LLMを上回り、PubMedQAを含むバイオメディスン分野のタスクにおいて、効率性と精度のバランスにおいて新たなベンチマークを樹立した。本研究の結果から、スパース事前学習と密なファインチューニング、およびソフトプロンプティングの組み合わせが、専門分野において高性能かつ計算効率の高いモデルを構築する有効な手法であることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MediSwift:効率的なスパース事前学習バイオメディカル言語モデル | 記事 | HyperAI超神経