HyperAIHyperAI

Command Palette

Search for a command to run...

Microsoft open-sources BitNet : framework officiel d'inférence pour les LLM en 1 bit

Microsoft a lancé bitnet.cpp, le framework d'inférence officiel pour les modèles de langage grand modèle (LLM) binaires, également appelés modèles 1-bit comme BitNet b1.58. Ce nouvel outil optimisé permet une exécution rapide et sans perte de données sur les CPU et GPU, avec un support des NPU annoncé pour les futures mises à jour. La première version se concentre spécifiquement sur l'inférence sur CPU, démontrant des gains de performance significatifs par rapport aux implémentations traditionnelles. Sur les processeurs ARM, bitnet.cpp offre une accélération variant de 1,37 à 5,07 fois, avec des modèles plus grands bénéficiant d'avantages encore plus marqués. Cette optimisation réduit la consommation d'énergie entre 55,4 % et 70,0 %, améliorant ainsi l'efficacité énergétique globale. Sur l'architecture x86, les vitesses de traitement augmentent de 2,37 à 6,17 fois, tandis que la consommation d'énergie chute de 71,9 % à 82,2 %. Une démonstration notable montre que la plateforme peut exécuter un modèle de 100 milliards de paramètres (BitNet b1.58) sur un seul CPU, atteignant une vitesse de génération de texte de 5 à 7 jetons par seconde, ce qui équivaut à la vitesse de lecture humaine. Cela ouvre la voie à l'utilisation locale de modèles d'IA massifs sans dépendre du cloud. La mise à jour la plus récente introduit des implémentations de noyaux parallèles avec un carroyage configurable et un support de quantification des embeddings, offrant un gain de vitesse supplémentaire de 1,15 à 2,1 fois sur diverses plateformes matérielles et charges de travail. Le projet s'appuie sur la structure de llama.cpp et intègre des méthodologies de table de recherche popularisées par T-MAC. Bien que la version actuelle soit conçue pour les modèles ternaires, l'équipe recommande l'utilisation de T-MAC pour l'inférence générale de modèles à faible nombre de bits autres que les modèles ternaires. Plusieurs modèles compatibles sont déjà disponibles sur Hugging Face pour tester les capacités de bitnet.cpp, notamment les variantes de BitNet b1.58 de 0,7 et 3,3 milliards de paramètres, ainsi que des versions adaptées de Llama3 et de la famille Falcon3. Ces modèles utilisent des poids en 1,58 bit, exploitant les capacités uniques de cette architecture pour réduire la complexité sans sacrifier les performances. L'installation du framework nécessite de cloner le dépôt, d'installer les dépendances, puis de construire le projet à partir du code source. Des scripts sont fournis pour configurer l'environnement, choisir le type de quantification et lancer l'inférence ou des tests de performance. Des questions techniques concernant la compilation, notamment les erreurs liées aux versions récentes de llama.cpp sur Windows avec l'environnement Conda et Clang, ont été anticipées. Des solutions spécifiques sont proposées pour initialiser correctement les outils Visual Studio afin d'assurer une compilation fluide. L'objectif de Microsoft est d'encourager le développement de modèles 1-bit à grande échelle en termes de taille et de tokens d'entraînement, facilitant ainsi l'adoption de l'IA efficiente sur les appareils locaux. Le framework vise à démocratiser l'accès aux grands modèles de langage tout en minimisant leur empreinte énergétique et matérielle.

Liens associés

Microsoft open-sources BitNet : framework officiel d'inférence pour les LLM en 1 bit | Articles tendance | HyperAI