HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA GPU : IA multimodale entreprise compatible Flash 3.7

StepFun a introduit Step 3.7 Flash, un modèle de langage visuel multimodal conçu pour les entreprises, capable de traiter l'information à grande échelle. Ce modèle de 198 milliards de paramètres, basé sur une architecture MoE (Mixture of Experts), n'active que 11 milliards de paramètres par inférence, optimisant ainsi la performance et réduisant la latence. Doté d'une fenêtre de contexte de 256 000 tokens, il permet l'analyse approfondie de longs documents et de flux vidéo en temps réel. Disponible sur les infrastructures accélérées par NVIDIA, Step 3.7 Flash intègre nativement l'entrée et la sortie d'images et de vidéos. Il offre trois niveaux de raisonnement configurables, adaptés à des cas d'usage variés allant de l'analyse financière complexe à la génération de code simultané. Les développeurs peuvent télécharger une version quantifiée en NVFP4 via Hugging Face pour améliorer l'efficacité de l'inférence en réduisant les besoins en bande passante mémoire et en stockage. Le déploiement est facilité par plusieurs écosystèmes open source comme SGLang, NVIDIA TensorRT-LLM et vLLM, tous optimisés pour le matériel NVIDIA. Pour la prototypage rapide, NVIDIA propose des endpoints GPU via build.nvidia.com. Ces outils permettent d'exécuter des pipelines d'intelligence documentaire qui extraient des insights structurés, y compris des zones de texte délimitées, depuis des rapports financiers, des présentations et des articles scientifiques. Pour une mise en production industrielle, NVIDIA NIM offre des services d'inférence containerisés. Ces microservices standardisés fournissent des APIs compatibles avec le format OpenAI, permettant un déploiement flexible sur site, dans le cloud ou dans des environnements hybrides. Cette solution garantit une mise à l'échelle transparente tout en simplifiant l'intégration dans les flux de travail existants. La personnalisation du modèle est rendue possible grâce au framework NVIDIA NeMo. Ce dernier supporte l'entraînement de jour zéro directement à partir des checkpoints Hugging Face, sans nécessiter de conversion de fichiers. Les équipes peuvent utiliser des techniques comme l'ajustement supervisé (SFT) et le LoRA efficace en mémoire, atteignant des vitesses de traitement de 600 tokens par seconde sur des puces Hopper. Pour des entraînements à très grande échelle, la recette NeMo Megatron-Bridge propose des optimisations de performance supplémentaires. L'infrastructure NVIDIA couvre l'ensemble du cycle de développement, des stations de bureau comme le DGX Station, qui offrent 748 Go de mémoire cohérente pour gérer la fenêtre de contexte complète, aux centres de données équipés de puces Blackwell. NVIDIA s'engage également à soutenir l'écosystème open source et la transparence des modèles d'IA, encourageant le partage de travaux sur la sécurité et la résilience. Les développeurs peuvent dès maintenant tester Step 3.7 Flash sur Hugging Face, évaluer ses capacités via les endpoints NVIDIA ou le déployer localement avec le guide vLLM.

Liens associés