HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

FinSearchComp: نحو تقييم واقعي ومتخصص لبحث المالي والاستنتاج المالي

FinSearchComp: نحو تقييم واقعي ومتخصص لبحث المالي والاستنتاج المالي

الملخص

أصبح البحث جزءًا أساسيًا من البنية التحتية للوكلاء القائمة على النماذج الكبيرة للغة (LLM)، ويُنظر إليه على نطاق واسع على أنه عنصر حاسم في المسار نحو الذكاء العام أكثر تطورًا. وتمثّل المجال المالي بيئةً صعبة وواقعية للغاية للتجريب: فالمحللون يُنفّذون باستمرار عمليات بحث معقدة ومتعددة المراحل على بيانات متخصصة وحساسة للزمن، مما يجعل هذا المجال مثاليًا لتقييم كفاءة البحث والتفكير القائم على المعرفة. ومع ذلك، لا توجد حتى الآن أي مجموعات بيانات مفتوحة في المجال المالي تُقيّم قدرة الوكلاء الشاملة (end-to-end) على استرجاع البيانات، وذلك لعدم توفر الموارد الكافية لبناء مهام واقعية ومعقدة، نظرًا لاحتياجها لخبرة مالية عميقة، كما أن تقييم البيانات الحساسة للزمن يُعدّ أمرًا صعبًا. نقدّم "FinSearchComp"، أول معيار مفتوح المصدر بالكامل للوكلاء المُخصّص لمهام البحث والتفكير في المجال المالي المفتوح والواقعي. يتضمن FinSearchComp ثلاث مهام — جمع البيانات الحساسة للزمن، والبحث البسيط في السجلات التاريخية، والتحقيق المعقد في السجلات التاريخية — والتي تُحاكي بدقة سير العمل الحقيقي للمحللين الماليين. ولضمان الصعوبة والموثوقية، قمنا بمشاركة 70 خبيرًا ماليًا محترفًا في عملية التصنيف، وتم تطبيق نموذج مراقبة جودة متعدد المراحل صارم. يضم المعيار 635 سؤالًا تغطي الأسواق العالمية والصين الكبرى، وقد قُمنا بتقييم 21 نموذجًا (منتجًا) عليه. وحلّ نموذج Grok 4 (web) في الصدارة ضمن مجموعة الأسواق العالمية، واقترب من دقة الخبير البشري. بينما تفوّق نموذج DouBao (web) في مجموعة الأسواق الصينية الكبرى. أظهر التحليل التجريبي أن تزويد الوكلاء بقدرات البحث عبر الويب والإضافات المالية يُحسّن النتائج بشكل كبير على معيار FinSearchComp، كما أن الأصل الجغرافي للنماذج والأدوات يؤثر بشكل ملحوظ في الأداء. وبما يتماشى مع المهام الواقعية التي يُنفّذها المحللون، ويوفر تقييمًا شاملاً من البداية إلى النهاية، يقدّم FinSearchComp بيئة اختبار احترافية وصعبة للغاية لمهام البحث والتفكير المالية المعقدة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
FinSearchComp: نحو تقييم واقعي ومتخصص لبحث المالي والاستنتاج المالي | الأوراق البحثية | HyperAI