NVIDIA lance Nemotron 3 Nano Omni
NVIDIA a dévoilé Nemotron 3 Nano Omni, un modèle d'intelligence artificielle multimodale conçu pour unifier la perception visuelle, auditive et textuelle au sein d'une seule architecture. Contrairement aux systèmes traditionnels qui empilent des modèles distincts pour la reconnaissance vocale, la vision par ordinateur et le raisonnement, ce nouveau modèle traite nativement le texte, les images, l'audio et la vidéo en une seule inférence. Cela élimine les pertes de contexte et les latences inhérentes aux transferts entre différents modules. Le modèle repose sur une architecture mixture-of-experts de 30 milliards de paramètres, dont seuls 3 milliards sont actifs lors de chaque inférence. Cette conception permet d'offrir la capacité de connaissances d'un grand modèle tout en conservant le coût d'inférence d'un petit modèle. En pratique, cela se traduit par une capacité à gérer neuf fois plus d'utilisateurs simultanés sur la même carte graphique que les solutions alternatives. Le système est prêt pour la production et se positionne comme une couche de perception sub-optimale pour les agents d'IA, excelant dans la lecture optique (OCR), la reconnaissance automatique de la parole (ASR), la compréhension contextuelle vidéo-audio et l'interprétation des interfaces graphiques. L'implémentation de Nemotron 3 Nano Omni est conçue pour être transparente grâce à une API compatible avec OpenAI, facilitant l'intégration pour les développeurs existants. Le modèle propose un mode de raisonnement activable via une option d'API, permettant aux utilisateurs de basculer entre une réponse directe à faible latence et une analyse approfondie avec traces de pensée, similaire au raisonnement en chaîne. Cette fonctionnalité est particulièrement utile pour les tâches d'analyse d'images complexes ou les agents financiers croisant des audios d'appels financiers avec des graphiques et des rapports PDF. Cependant, des contraintes spécifiques s'appliquent aux entrées audio et vidéo : le mode de raisonnement avancé ne peut pas être activé sur ces modalités, la température doit être fixée à zéro, et l'analyse se fait sans étape de réflexion explicite. Pour les tâches nécessitant une profondeur analytique sur des fichiers audio ou vidéo, une approche en deux étapes est recommandée : extraire les informations via Nano Omni, puis soumettre le résultat à un modèle de raisonnement textuel pur. Le modèle prend en charge de nombreux formats audio et vidéo, y compris la transcription complète avec horodatages pour les vidéos contenant un flux audio, ou une analyse visuelle seule pour les vidéos silencieuses. NVIDIA positionne cette solution comme un élément central de sa stack d'IA ouverte, complétant les modèles Super et Ultra qui gèrent le raisonnement complexe. L'objectif est de créer un système d'agents où Nano Omni gère la collecte et la compréhension des données multimodales à haut débit et faible coût, transmettant ensuite des observations structurées aux modèles plus puissants pour la prise de décision. L'ouverture de la famille de modèles Nemotron et la compatibilité de l'API visent à réduire les coûts de migration et à répondre aux exigences de transparence des secteurs régulés. Bien que des compromis existent, notamment sur la profondeur d'analyse en temps réel pour l'audio et la vidéo, l'architecture de Nemotron 3 Nano Omni représente une avancée significative vers une compréhension unifiée du monde réel par les agents d'IA.
