HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 14 jours

DeepAnalyze : modèles de langage à grande échelle agents pour la science des données autonome

Shaolei Zhang Ju Fan Meihao Fan Guoliang Li Xiaoyong Du

DeepAnalyze : modèles de langage à grande échelle agents pour la science des données autonome

Résumé

L’analyse de données autonome, allant des sources brutes de données à la production de rapports de recherche approfondie de qualité analyste, constitue un défi ancien et persistant, qui devient désormais envisageable grâce à l’émergence de modèles linguistiques massifs (LLM) puissants. Les agents de données basés sur des flux de travail récents ont montré des résultats prometteurs sur des tâches spécifiques, mais restent fondamentalement limités dans la réalisation d’une analyse de données entièrement autonome, en raison de leur dépendance à des flux de travail prédéfinis. Dans cet article, nous introduisons DeepAnalyze-8B, le premier modèle LLM agissant conçu pour l’analyse de données autonome, capable d’effectuer de manière automatisée l’ensemble du pipeline, de la source de données à la production de rapports de recherche approfondie de qualité analyste. Pour relever des tâches d’analyse de données à haute complexité, nous proposons un paradigme d’entraînement agissant basé sur un programme d’études (curriculum), qui imite la trajectoire d’apprentissage des scientifiques des données humains, permettant aux LLM d’acquérir progressivement et d’intégrer de multiples compétences dans des environnements réels. Nous introduisons également un cadre de synthèse de trajectoires ancrées dans les données, qui permet de construire des données d’entraînement de haute qualité. Grâce à cet entraînement agissant, DeepAnalyze apprend à mener une large gamme de tâches de données, allant de la réponse à des questions sur les données et des tâches analytiques spécialisées à des recherches de données à ouverture libre. Des expérimentations montrent qu’avec seulement 8 milliards de paramètres, DeepAnalyze surpasse les agents précédents basés sur des flux de travail, même lorsqu’ils sont construits sur les LLM propriétaires les plus avancés. Le modèle, le code source et les données d’entraînement de DeepAnalyze sont mis à disposition en open source, ouvrant la voie vers une analyse de données entièrement autonome.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepAnalyze : modèles de langage à grande échelle agents pour la science des données autonome | Articles de recherche | HyperAI