HyperAIHyperAI

Command Palette

Search for a command to run...

مقدمة: معيار مصمم لطلب فهم وتحليل عالمي على سياقات طويلة

الملخص

نقدّم "PRELUDE"، وهو معيار لتقييم الفهم طويل السياق من خلال مهمة تحديد ما إذا كانت قصة ما قبل القصة (الماضي) لشخصية ما متسقة مع السرد الأصلي المتعارف عليه في الكتاب الأصلي. تفرض هذه المهمة متطلبات أقوى في الفهم الشامل والاستنتاج العميق مقارنةً بالمعايير الحالية، إذ أن القصص السابقة لا تشكل جزءًا من القصة الأصلية، وبالتالي يتطلب تقييم مصداقية هذه القصص عادةً البحث عن المعلومات ودمجها من مصادر غير مباشرة الارتباط. من الناحية التجريبية، تتطلب 88٪ من الحالات أدلة من أجزاء متعددة من السرد. تُظهر النتائج التجريبية صعوبة المهمة: فجميع الأساليب المتبعة، مثل التعلّم في السياق (in-context learning)، وتقنيات RAG، والتدريب داخل المجال باستخدام نماذج لغة متقدمة (LLMs)، وخدمات DeepResearch التجارية، تتأخر عن الأداء البشري بفارق يزيد عن 15٪. كما كشفت دراسة إضافية على البشر أن النماذج تُقدّم أحيانًا إجابات صحيحة ولكن بأساليب استنتاج خاطئة، ما يؤدي إلى فجوة تزيد عن 30٪ في دقة الاستنتاج مقارنةً بالبشر. تُبرز هذه النتائج الفجوة الكبيرة التي تظل قائمة في مجال الفهم والاستنتاج طويل السياق، مما يشير إلى الحاجة الملحة لتحسينات كبيرة في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مقدمة: معيار مصمم لطلب فهم وتحليل عالمي على سياقات طويلة | مستندات | HyperAI