Command Palette
Search for a command to run...
StockBench: هل يمكن لوكالات الذكاء الاصطناعي الكبيرة أن تُتداول الأسهم بربحية في الأسواق الحقيقية؟
Yanxu Chen Zijun Yao Yantao Liu Jin Ye Jianing Yu Lei Hou Juanzi Li

الملخص
أظهرت النماذج اللغوية الكبيرة (LLMs) مؤخرًا قدرات قوية كوكالات مستقلة، حيث أظهرت تقدمًا ملحوظًا في التفكير الاستنتاجي، واستخدام الأدوات، واتخاذ القرارات المتسلسلة. وعلى الرغم من أن المعايير السابقة قد قيمت أداء نماذج LLM في مجالات مثل هندسة البرمجيات والاكتشاف العلمي، إلا أن المجال المالي ما زال غير مُستكشَفٍ بشكل كافٍ، رغم أهميته المباشرة بالنسبة للقيمة الاقتصادية واتخاذ القرارات ذات الأبعاد الحاسمة. تُركّز المعايير المالية الحالية بشكل رئيسي على اختبار المعرفة الثابتة من خلال أسئلة وأجوبة، لكنها تفشل في التقاط الطبيعة الديناميكية والتكرارية لعمليات التداول. ولسد هذه الفجوة، نقدّم "StockBench"، وهو معيار خالٍ من التلوث مصمم لتقييم أداء وكالات LLM في بيئات تداول سهم واقعية تمتد لعدة أشهر متتالية. تتلقى الوكالات إشارات سوقية يومية — تشمل الأسعار، والبيانات الأساسية، والأخبار — ويجب عليها اتخاذ قرارات متسلسلة بالشراء أو البيع أو الاحتفاظ بالأسهم. وتُقاس الأداء باستخدام مؤشرات مالية مثل العائد التراكمي، وأقصى انخفاض ممكن (Maximum Drawdown)، ونسبة سوريتو (Sortino Ratio). وقد أظهر تقييمنا للنماذج الرائدة المُشترَكة (مثل GPT-5، Claude-4) والنموذج المفتوح المصدر (مثل Qwen3، Kimi-K2، GLM-4.5) أن معظم وكالات LLM تواجه صعوبة في التفوق على النموذج الأساسي البسيط (شراء واحتفاظ)، لكن بعض النماذج أظهرت إمكانية تحقيق عوائد أعلى وإدارة المخاطر بشكل أكثر فعالية. تُبرز هذه النتائج كلًا من التحديات والفرص المرتبطة بتطوير وكالات مالية مدعومة بنماذج لغوية كبرى، وتبين أن التفوق في مهام المعرفة المالية الثابتة لا يعني بالضرورة تحقيق استراتيجيات تداول ناجحة. ونُطلق "StockBench" كمصدر مفتوح المصدر لدعم إعادة الإنتاج ودفع عجلة الأبحاث المستقبلية في هذا المجال.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.