الملخص

التنبؤ بالمستقبل يُعد مهمة معقدة بالنسبة لوكالات النماذج اللغوية الكبيرة (LLM)، حيث تتطلب درجة عالية من التفكير التحليلي، وجمع المعلومات، والفهم السياقي، واتخاذ القرارات في ظل عدم اليقين. يجب على هذه الوكالات أن تجمع وتفسر كميات هائلة من المعلومات الديناميكية، وتنسق مصادر بيانات متنوعة، وتقيّم درجات عدم اليقين، وتُعدّل تنبؤاتها استنادًا إلى الاتجاهات الناشئة، تمامًا كما يفعل الخبراء البشريون في مجالات مثل السياسة والاقتصاد والمال. وعلى الرغم من أهميتها، لا توجد حتى الآن معايير تقييم كبيرة النطاق لتقييم الوكالات في مهام التنبؤ بالمستقبل، وذلك بشكل رئيسي بسبب التحديات المرتبطة بمعالجة التحديثات في الزمن الفعلي واسترجاع إجابات دقيقة وفي الوقت المناسب. وللتصدي لهذا التحدي، نقدّم $\textbf{FutureX}$ ، وهي معيار تقييم ديناميكي وحقيقي مصمم خصيصًا لوكالات النماذج اللغوية الكبيرة التي تقوم بمهام التنبؤ بالمستقبل. يُعدّ FutureX أكبر معيار تقييم حي ومتعدد التنويع في مجال التنبؤ بالمستقبل، ويدعم تحديثات يومية حقيقية، ويُبعد مشكلة تلوث البيانات من خلال نموذج آلّي متكامل لجمع الأسئلة وجمع الإجابات. قمنا بتقييم 25 نموذجًا من النماذج اللغوية الكبيرة أو الوكالات، تشمل نماذج تمتلك قدرات استدلال، ووظائف بحث، ودمج أدوات خارجية مثل وكالة Deep Research مفتوحة المصدر، ونماذج Deep Research مغلقة المصدر. يُعد هذا التقييم الشامل تقييمًا لقدرة الوكالات على التفكير المتكيف والأداء في البيئات الديناميكية. علاوةً على ذلك، نقدّم تحليلات متعمقة لحالات فشل الوكالات وسلبيات أدائها في المهام المستقبلية، بما في ذلك التعرض للصفحات الوهمية على الويب، وقيمة الصلاحية الزمنية للبيانات. يهدف هذا العمل إلى إرساء معيار تقييم ديناميكي خالٍ من التلوث، يُحفّز تطوير وكالات النماذج اللغوية الكبيرة لكي تصل إلى مستوى الخبراء البشريين المحترفين في التفكير التحليلي المعقد والتفكير التنبؤي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin20 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin20 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin20 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin

Zhiyuan Zeng Jiashuo Liu Siyuan Chen Tianci He Yali Liao Jinpeng Wang Zaiyuan Wang Yang Yang Lingyue Yin Mingren Yin