HyperAIHyperAI

Command Palette

Search for a command to run...

FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل

الملخص

التنبؤ بالمستقبل يُعد مهمة معقدة بالنسبة لوكالات النماذج اللغوية الكبيرة (LLM)، حيث تتطلب درجة عالية من التفكير التحليلي، وجمع المعلومات، والفهم السياقي، واتخاذ القرارات في ظل عدم اليقين. يجب على هذه الوكالات أن تجمع وتفسر كميات هائلة من المعلومات الديناميكية، وتنسق مصادر بيانات متنوعة، وتقيّم درجات عدم اليقين، وتُعدّل تنبؤاتها استنادًا إلى الاتجاهات الناشئة، تمامًا كما يفعل الخبراء البشريون في مجالات مثل السياسة والاقتصاد والمال. وعلى الرغم من أهميتها، لا توجد حتى الآن معايير تقييم كبيرة النطاق لتقييم الوكالات في مهام التنبؤ بالمستقبل، وذلك بشكل رئيسي بسبب التحديات المرتبطة بمعالجة التحديثات في الزمن الفعلي واسترجاع إجابات دقيقة وفي الوقت المناسب. وللتصدي لهذا التحدي، نقدّم FutureX\textbf{FutureX}FutureX، وهي معيار تقييم ديناميكي وحقيقي مصمم خصيصًا لوكالات النماذج اللغوية الكبيرة التي تقوم بمهام التنبؤ بالمستقبل. يُعدّ FutureX أكبر معيار تقييم حي ومتعدد التنويع في مجال التنبؤ بالمستقبل، ويدعم تحديثات يومية حقيقية، ويُبعد مشكلة تلوث البيانات من خلال نموذج آلّي متكامل لجمع الأسئلة وجمع الإجابات. قمنا بتقييم 25 نموذجًا من النماذج اللغوية الكبيرة أو الوكالات، تشمل نماذج تمتلك قدرات استدلال، ووظائف بحث، ودمج أدوات خارجية مثل وكالة Deep Research مفتوحة المصدر، ونماذج Deep Research مغلقة المصدر. يُعد هذا التقييم الشامل تقييمًا لقدرة الوكالات على التفكير المتكيف والأداء في البيئات الديناميكية. علاوةً على ذلك، نقدّم تحليلات متعمقة لحالات فشل الوكالات وسلبيات أدائها في المهام المستقبلية، بما في ذلك التعرض للصفحات الوهمية على الويب، وقيمة الصلاحية الزمنية للبيانات. يهدف هذا العمل إلى إرساء معيار تقييم ديناميكي خالٍ من التلوث، يُحفّز تطوير وكالات النماذج اللغوية الكبيرة لكي تصل إلى مستوى الخبراء البشريين المحترفين في التفكير التحليلي المعقد والتفكير التنبؤي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
FutureX: معيار تجريبي حي متقدم لوكالات نماذج اللغة الكبيرة في التنبؤ بالمستقبل | مستندات | HyperAI