Un agent de scientifique des données atteint le top 1 sur DABStep
L'équipe NVIDIA KGMON (Toolkit NeMo Agent) vient de réaliser une percée majeure dans le domaine du traitement intelligent des données avec son agent d'exploration de données (Data Explorer), qui s'est classé premier lors du benchmark DABStep pour les agents de données à raisonnement multi-étapes. Conçu spécifiquement pour résoudre la pénurie de données quantitatives structurées sur Internet, cet outil vise à simuler le flux de travail des data scientists expérimentés afin de permettre l'analyse exploratoire automatisée, les questions-réponses sur tableaux et la modélisation prédictive. Face aux données tabulaires nécessitant des requêtes complexes en plusieurs étapes, les agents traditionnels dépendant de la recherche web échouent souvent. Data Explorer adopte une architecture unique en trois phases : tout d'abord, via un « phase d'apprentissage », il utilise de grands modèles pour traiter par lot des tâches échantillons, extraire et encapsuler une bibliothèque de fonctions génériques (helper.py), intégrant ainsi des logiques de code dispersées en modules réutilisables selon le principe efficace « écrire une fois, exécuter partout » ; ensuite, durant la « phase de raisonnement », il déploie des modèles légers et rapides capables d'appeler directement la bibliothèque générée au préalable pour traiter de nouvelles tâches sans régénérer la logique sous-jacente, réduisant considérablement la latence et la consommation de tokens ; enfin, lors de la « phase de réflexion hors ligne », un grand modèle procède à un audit non supervisé et à une analyse de cohérence des tâches passées, renvoyant ces retours d'expérience vers les invites système pour optimiser continuellement la précision du raisonnement sans affecter la vitesse en temps réel. Les résultats pratiques démontrent des performances remarquables de cette méthode sur le benchmark DABStep. Lors du traitement de tâches difficiles de raisonnement multi-étapes, Data Explorer atteint une précision de 89,95 %, surpassant largement ses concurrents utilisant des modèles lourds comme Claude Code (66,93 %) ou Google AI (45,24 %). Parallèlement, sa durée moyenne par tâche n'est que de 20 secondes et la longueur du code généré est réduite à 1870 caractères, offrant une efficacité accrue de 30 fois par rapport à la rédaction manuelle de code depuis zéro. Ces résultats prouvent que séparer la construction des connaissances fondamentales du raisonnement rapide permet efficacement aux modèles légers de dépasser les modèles lourds dans l'analyse complexe de données, établissant un nouveau paradigme pour la recherche intensive en données. À ce jour, NVIDIA a rendu disponible l'outil correspondant permettant aux développeurs de créer leurs propres agents d'exploration de données personnalisés.
