MediSwift : Modèles pré-entraînés linguistiques biomédicaux creux efficaces

Les modèles linguistiques à grande échelle (LLM) sont généralement entraînés sur des données sources générales couvrant divers domaines, mais une récente émergence de LLM spécialisés dans des domaines particuliers a démontré leur potentiel à surpasser les modèles polyvalents sur des tâches spécifiques (par exemple, dans le domaine biomédical). Bien que l'entraînement préalable spécialisé améliore l'efficacité et permette de concevoir des modèles plus compacts, les coûts computationnels liés à l'entraînement de ces LLM restent élevés, posant des défis importants en matière de budget. Nous présentons MediSwift, une suite de modèles linguistiques biomédicaux qui exploitent un entraînement préalable à faible densité (sparse pre-training) sur des données textuelles biomédicales spécifiques. En induisant jusqu'à 75 % de sparsité pondérale pendant la phase d'entraînement préalable, MediSwift réduit de 2 à 2,5 fois le nombre d’opérations flottantes (FLOPs) nécessaires à l’entraînement. Notamment, tout l’entraînement préalable à faible densité a été réalisé sur le système Cerebras CS-2, spécifiquement conçu pour tirer parti des avantages d’accélération offerts par la sparsité non structurée des poids, ce qui améliore significativement l’efficacité des modèles MediSwift. Grâce à une phase ultérieure de fine-tuning dense et à une stratégie de prompting doux (soft prompting), les modèles MediSwift surpassent les LLM existants jusqu’à 7 milliards de paramètres sur des tâches biomédicales, établissant de nouveaux états de l’art en matière d’efficacité-précision sur des tâches telles que PubMedQA. Nos résultats montrent que l’entraînement préalable à faible densité, combiné à un fine-tuning dense et à un prompting doux, constitue une méthode efficace pour concevoir des modèles performants et économiques en ressources computationnelles dans des domaines spécialisés.