Command Palette
Search for a command to run...
DeepAnalyze: نماذج لغة كبيرة عاقلة للعلوم الذاتية للبيانات
Shaolei Zhang Ju Fan Meihao Fan Guoliang Li Xiaoyong Du

الملخص
العلوم الذاتية للبيانات، من مصادر البيانات الأولية إلى تقارير بحثية عميقة بجودة تُنافس تقارير الباحثين، كانت تحدياً يمتد لفترة طويلة، وتحظى الآن بجدوى واقعية بفضل ظهور نماذج اللغة الكبيرة القوية (LLMs). وقد أظهرت الوكالات المبنية على سير العمل في تحليل البيانات نتائج واعدة في مهام بيانات محددة، لكنها تظل محدودة جوهريًا في تحقيق العلم الذاتي للبيانات بالكامل نظراً لاعتمادها على سير عمل مُحددة مسبقًا. في هذا البحث، نقدّم نموذج DeepAnalyze-8B، وهو أول نموذج لغوي عقلي (agentic LLM) مُصمم للعلوم الذاتية للبيانات، قادر على إتمام نموذج سير العمل من البداية إلى النهاية تلقائيًا، بدءًا من مصادر البيانات وصولاً إلى تقارير بحثية عميقة بجودة تُنافس تقارير الباحثين. وللتعامل مع مهام تحليل البيانات ذات التعقيد العالي، نقترح نموذج تدريب عقلي مبني على منهج تدريسي (curriculum-based agentic training paradigm) يُحاكي مسار التعلم الخاص بعلماء البيانات البشر، ما يمكّن النماذج اللغوية الكبيرة من اكتساب القدرات المتعددة ودمجها تدريجياً في البيئات الواقعية. كما نقدّم إطاراً لتركيب مسارات مبنية على البيانات (data-grounded trajectory synthesis framework) يُنشئ بيانات تدريب عالية الجودة. ومن خلال التدريب العقلي، يتعلم نموذج DeepAnalyze أداء طيف واسع من مهام تحليل البيانات، بدءًا من الإجابة على الأسئلة المتعلقة بالبيانات، ومروراً بمهام تحليلية متخصصة، وانتهاءً بمهام بحثية مفتوحة الاتجاه. تُظهر التجارب أن DeepAnalyze، بحجم 8 مليار معلمة فقط، يتفوّق على الوكالات القائمة على سير العمل السابقة التي بُنيت على أقدم النماذج اللغوية الكبيرة المُخصصة (proprietary LLMs) المتطورة. وتم إتاحة نموذج DeepAnalyze، وشفرة البرمجة، وبيانات التدريب مفتوحة المصدر، مما يُمهد الطريق أمام تحقيق العلم الذاتي للبيانات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.