HyperAIHyperAI
منذ 3 أيام

FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل

Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang
FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل
الملخص

التنبؤ بالمستقبل يُعد مهمة معقدة بالنسبة لوكالات النماذج اللغوية الكبيرة (LLM)، حيث تتطلب درجة عالية من التفكير التحليلي، وجمع المعلومات، والفهم السياقي، واتخاذ القرارات في ظل عدم اليقين. يجب على هذه الوكالات أن تجمع وتفسر كميات هائلة من المعلومات الديناميكية، وتنسق مصادر بيانات متنوعة، وتقيّم درجات عدم اليقين، وتُعدّل تنبؤاتها استنادًا إلى الاتجاهات الناشئة، تمامًا كما يفعل الخبراء البشريون في مجالات مثل السياسة والاقتصاد والمال. وعلى الرغم من أهميتها، لا توجد حتى الآن معايير تقييم كبيرة النطاق لتقييم الوكالات في مهام التنبؤ بالمستقبل، وذلك بشكل رئيسي بسبب التحديات المرتبطة بمعالجة التحديثات في الزمن الفعلي واسترجاع إجابات دقيقة وفي الوقت المناسب. وللتصدي لهذا التحدي، نقدّم $\textbf{FutureX}$، وهي معيار تقييم ديناميكي وحقيقي مصمم خصيصًا لوكالات النماذج اللغوية الكبيرة التي تقوم بمهام التنبؤ بالمستقبل. يُعدّ FutureX أكبر معيار تقييم حي ومتعدد التنويع في مجال التنبؤ بالمستقبل، ويدعم تحديثات يومية حقيقية، ويُبعد مشكلة تلوث البيانات من خلال نموذج آلّي متكامل لجمع الأسئلة وجمع الإجابات. قمنا بتقييم 25 نموذجًا من النماذج اللغوية الكبيرة أو الوكالات، تشمل نماذج تمتلك قدرات استدلال، ووظائف بحث، ودمج أدوات خارجية مثل وكالة Deep Research مفتوحة المصدر، ونماذج Deep Research مغلقة المصدر. يُعد هذا التقييم الشامل تقييمًا لقدرة الوكالات على التفكير المتكيف والأداء في البيئات الديناميكية. علاوةً على ذلك، نقدّم تحليلات متعمقة لحالات فشل الوكالات وسلبيات أدائها في المهام المستقبلية، بما في ذلك التعرض للصفحات الوهمية على الويب، وقيمة الصلاحية الزمنية للبيانات. يهدف هذا العمل إلى إرساء معيار تقييم ديناميكي خالٍ من التلوث، يُحفّز تطوير وكالات النماذج اللغوية الكبيرة لكي تصل إلى مستوى الخبراء البشريين المحترفين في التفكير التحليلي المعقد والتفكير التنبؤي.