Astock: مجموعة بيانات جديدة وتجارة الأسهم الآلية بناءً على نموذج تحليل الأخبار الخاصة بالسهم

معالجة اللغات الطبيعية (NLP) تظهر إمكانات كبيرة في دعم صنع القرار المالي من خلال تحليل النصوص من وسائل التواصل الاجتماعي أو وسائل الإعلام. في هذا البحث، نقوم ببناء منصة لدراسة خوارزميات التداول الآلي للأسهم المدعومة بمعالجة اللغات الطبيعية بشكل منهجي. على عكس الأبحاث السابقة، يتميز نظامنا بثلاثة مميزات: (1) نوفر أخبارًا مالية لكل سهم محدد. (2) نوفر مجموعة متنوعة من العوامل المتعلقة بكل سهم. (3) نقيم الأداء باستخدام مؤشرات أكثر صلة بالجوانب المالية. يسمح مثل هذا التصميم لنا بتطوير وتقييم خوارزميات التداول الآلي للأسهم المدعومة بمعالجة اللغات الطبيعية في بيئة أكثر واقعية.بالإضافة إلى تصميم منصة التقييم وجمع البيانات، قدمنا أيضًا مساهمة تقنية بإقتراح نظام لتعلم تمثيل الخصائص الجيدة تلقائيًا من معلومات الإدخال المختلفة. المفتاح لخوارزميتنا هو طريقة تسمى تجميع التسمية الدلالية للدور (SRLP)، والتي تستفيد من التسمية الدلالية للدور (SRL) لإنشاء تمثيل مضغوط لكل فقرة إخبارية. بناءً على SRLP، ندمج عوامل الأسهم الأخرى لتحقيق التنبؤ النهائي. بالإضافة إلى ذلك، نقترح استراتيجية تعلم ذاتي مستندة إلى SRLP لتعزيز أداء النظام في التعامل مع البيانات خارج التوزيع.من خلال دراسة التجارب التي أجريناها، أظهرنا أن الطريقة المقترحة تحقق أداءً أفضل وتتفوق على معدل العائد السنوي لكافة النقاط المرجعية وكذلك الحد الأقصى للتراجع بالنسبة لمؤشر CSI300 ومؤشر XIN9 في التداول الفعلي. مجموعة بيانات Astock وكود البرمجيات متوفرين على https://github.com/JinanZou/Astock.