استكمال السلاسل الزمنية متعددة المتغيرات باستخدام الشبكات التوليدية المتنافسة

تتضمّن السلاسل الزمنية متعددة المتغيرات عادةً عددًا كبيرًا من القيم المفقودة، مما يعيق تطبيق أساليب التحليل المتقدمة على بيانات السلاسل الزمنية متعددة المتغيرات. تُعد الأساليب التقليدية لمعالجة مشكلة القيم المفقودة، مثل الاستبدال بالقيمة المتوسطة أو الصفر، أو حذف الحالات، أو الاستبدال القائم على تحليل المصفوفات، غير قادرة على نمذجة الاعتماد الزمني وطبيعة التوزيع المعقد في السلاسل الزمنية متعددة المتغيرات. في هذا البحث، ننظر إلى مشكلة استبدال القيم المفقودة كعملية توليد بيانات. مستوحى من النجاح الذي حققته الشبكات التوليدية التنافسية (GAN) في توليد الصور، نقترح تعلُّم التوزيع الكلي لمجموعة بيانات السلاسل الزمنية متعددة المتغيرات باستخدام GAN، والذي يستخدم بعدها لتوليد القيم المفقودة لكل عينة. على عكس بيانات الصور، غالبًا ما تكون بيانات السلاسل الزمنية غير كاملة بسبب طبيعة عملية جمع البيانات. ولذلك، نستخدم وحدة تكرار معدلة (Modified Gate Recurrent Unit) داخل GAN لنمذجة عدم انتظام العناصر الزمنية في السلاسل الزمنية غير الكاملة. أظهرت التجارب على مجموعتي بيانات سلاسل زمنية متعددة المتغيرات أن النموذج المقترح تفوق على النماذج الأساسية من حيث دقة الاستبدال. كما أظهرت النتائج التجريبية أن نموذجًا بسيطًا مُطبَّقًا على البيانات التي تم استبدال قيمها يمكنه تحقيق نتائج رائدة في المهام التنبؤية، مما يُظهر الفوائد المحتملة لنموذجنا في التطبيقات اللاحقة.