Command Palette
Search for a command to run...
DeepResearch Arena: أول امتحان لقدرات البحث لدى نماذج اللغة الكبيرة من خلال مهام مبنية على الندوات

الملخص
لقد لاقت الوكالات البحثية العميقة اهتمامًا متزايدًا بفضل إمكاناتها في تنسيق سير عمل بحثي متعدد المراحل، التي تمتد من توليف الأدبيات إلى تصميم المنهجيات والتحقق التجريبي. وعلى الرغم من التقدم المحرز في هذا المجال، فإن تقييم قدرات هذه الوكالات بشكل واقعي يظل تحديًا كبيرًا، نظرًا لصعوبة جمع أسئلة بحثية متقدمة تُعبّر فعلاً عن اهتمام الباحثين وفضولهم المعرفي. ولسد هذه الفجوة، نقدّم "مجمع DeepResearch"، وهو معيار مبني على ندوات أكاديمية تُسجّل تفاعلات وحوارًا خبيرًا غنيًا، ما يعكس بيئة البحث الواقعية بشكل أفضل ويقلل من خطر تسرب البيانات. ولبناء مجمع DeepResearch تلقائيًا، نقترح نظامًا يُسمى "توليد المهام الهرمية متعددة الوكالات (MAHTG)"، والذي يستخرج أفكارًا بحثية ذات قيمة من محاضرات الندوات. كما يقوم النظام بتحويل هذه الأفكار إلى مهام بحثية عالية الجودة، مع ضمان إمكانية تتبع عملية صياغة المهام وتصفية الضوضاء. وباستخدام هذا النظام، تم تجميع مجمع DeepResearch بأكثر من 10,000 مهمة بحثية عالية الجودة مستمدة من أكثر من 200 ندوة أكاديمية، تغطي 12 تخصصًا مثل الأدب والتاريخ والعلوم. وتشير تقييماتنا الواسعة إلى أن مجمع DeepResearch يمثل تحديًا كبيرًا للوكالات الرائدة حاليًا، حيث تم تسجيل فجوات واضحة في الأداء بين النماذج المختلفة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.