NVIDIA lance Nemotron 3 Nano Omni pour une IA 9x plus efficace
NVIDIA a dévoilé le modèle multimodal Nemotron 3 Nano Omni, une innovation destinée à rationaliser le développement des agents d'intelligence artificielle. Jusqu'à présent, ces systèmes devaient mobiliser des modèles distincts pour traiter la vision, l'audio et le langage, ce qui entraînait des pertes de temps et de contexte lors du transfert des données entre eux. Ce nouveau modèle unifie ces capacités en un seul système, permettant des réponses plus rapides et plus précises pour l'analyse de vidéos, d'images, d'audio et de textes. Cette solution se positionne comme une référence en matière d'efficacité pour les modèles ouverts, offrant une précision supérieure et des coûts réduits. Elle domine désormais six classements majeurs concernant l'intelligence documentaire complexe, ainsi que la compréhension audio et vidéo. Plusieurs entreprises de pointe, dont Palantir, Foxconn, Aible et Oracle, ont déjà adopté ce modèle, tandis que Dell Technologies, DocuSign et Infosys sont en cours d'évaluation. Gautier Cloix, PDG de H Company, a souligné que cette technologie transforme fondamentalement la façon dont les agents perçoivent et interagissent avec les environnements numériques en temps réel, rendant possible l'interprétation rapide d'enregistrements vidéo haute définition. L'architecture de Nemotron 3 Nano Omni repose sur une structure hybride de 30 milliards de paramètres appelée 30B-A3B, combinant des encodeurs visuels et audio. Cette conception élimine le besoin de modèles de perception séparés, améliorant ainsi considérablement l'efficacité à grande échelle. En tant que premier modèle ouvert à offrir à la fois cette efficacité et une forte précision perceptive multimodale, il permet aux systèmes d'IA d'atteindre un débit jusqu'à neuf fois supérieur à celui des autres modèles ouverts similaires. Cela se traduit par une réduction des coûts et une meilleure évolutivité sans sacrifier la réactivité ou la qualité. Le modèle peut fonctionner en synergie avec des modèles propriétaires ou d'autres versions de la gamme Nemotron, telles que Nemotron 3 Super pour l'exécution à haute fréquence ou Nemotron 3 Ultra pour la planification complexe. Il est spécifiquement conçu pour trois domaines clés : l'utilisation d'ordinateurs, où il gère la perception des interfaces graphiques avec une résolution native élevée ; l'intelligence documentaire, capable d'interpréter des PDF, des tableaux et des graphiques en unifiant la structure visuelle et le texte ; et la compréhension audio-vidéo, qui maintient un contexte cohérent entre ce qui est dit, montré et documenté. NVIDIA a publié les poids, les jeux de données et les techniques d'entraînement de Nemotron 3 Nano Omni en open source, garantissant une transparence totale et un contrôle complet pour les organisations. Grâce à des outils comme NVIDIA NeMo, les développeurs peuvent adapter le modèle à des cas d'usage spécifiques, respectant ainsi les exigences de souveraineté des données ou de localisation réglementaire. Disponible sur des plateformes comme Hugging Face et OpenRouter, ainsi que via des services NIM, ce modèle léger est déployable sur des systèmes locaux, des centres de données ou dans le cloud. La famille Nemotron 3 a enregistré plus de 50 millions de téléchargements au cours de la dernière année, et ce nouvel ajout étend considérablement ses capacités vers les domaines multimodaux et agents.
