Llama-Nemotron: Effiziente Modellen für logisches Schlussfolgern

Wir stellen die Llama-Nemotron-Serie von Modellen vor, eine offene Familie heterogener Reasoning-Modelle, die außergewöhnliche Reasoning-Fähigkeiten, hohe Inferenz-Effizienz und eine kommerziell freizügige Lizenz für den Einsatz in Unternehmen bieten. Die Modellfamilie ist in drei Größen verfügbar – Nano (8B), Super (49B) und Ultra (253B) – und erreicht Leistungen, die mit den führenden aktuellen Reasoning-Modellen wie DeepSeek-R1 konkurrieren, wobei sie zudem eine überlegene Inferenz-Durchsatzleistung und Speichereffizienz bieten. In diesem Bericht beschreiben wir das Trainingsverfahren dieser Modelle, das auf der Nutzung von Neural Architecture Search basierend auf Llama-3-Modellen zur beschleunigten Inferenz, Wissensdistillation und fortgesetzter Vortrainierung aufbaut, gefolgt von einer auf Reasoning ausgerichteten Nachtrainierungsphase mit zwei zentralen Komponenten: überwachtem Feinjustieren und großskaligem Reinforcement Learning. Die Llama-Nemotron-Modelle sind die ersten Open-Source-Modelle, die einen dynamischen Reasoning-Schalter unterstützen, der es Nutzern ermöglicht, während der Inferenz zwischen Standard-Chat- und Reasoning-Modus zu wechseln. Um die offene Forschung zu fördern und die Modellentwicklung zu erleichtern, stellen wir folgende Ressourcen bereit: 1. Wir veröffentlichen die Llama-Nemotron-Reasoning-Modelle – LN-Nano, LN-Super und LN-Ultra – unter der kommerziell flexiblen NVIDIA Open Model License Agreement. 2. Wir veröffentlichen den vollständigen Nachtrainierungsdatensatz: Llama-Nemotron-Post-Training-Dataset. 3. Zudem stellen wir unsere Trainings-Codesysteme bereit: NeMo, NeMo-Aligner und Megatron-LM.