تقدير البيانات المفقودة في تدفقات البيانات الزمنية باستخدام الشبكات العصبية المتكررة متعددة الاتجاهات

البيانات الناقصة هي مشكلة شائعة. وهي تحدي خاص في البيئات الطبية لأن العديد من مسارات القياس يتم جمعها في أوقات مختلفة - وغالبًا ما تكون غير منتظمة. التقدير الدقيق لهذه القياسات الناقصة ضروري لأسباب عديدة، بما في ذلك التشخيص والتوقع والعلاج. تتعامل الأساليب الحالية مع هذه المشكلة من خلال التكميم داخل مسارات البيانات أو التكملة عبر مسارات البيانات (كلاهما يتجاهل معلومات مهمة) أو تجاهل الجوانب الزمنية للبيانات وفرض افتراضات قوية حول طبيعة عملية إنتاج البيانات وأنماط البيانات الناقصة (وهي مشكلة خاصة بالنسبة للبيانات الطبية). نقترح نهجًا جديدًا يستند إلى هندسة تعلم عميقة جديدة نسميها الشبكة العصبية المتكررة متعددة الاتجاهات (M-RNN) التي تقوم بالتكميم داخل مسارات البيانات والتكملة عبر مسارات البيانات. نوضح قوة نهجنا من خلال تطبيقه على خمسة قواعد بيانات طبية حقيقية. نظهر أنه يوفر تقديرًا أكثر دقة للقياسات الناقصة مقارنة بـ 11 مقاييس رائدة (تشمل التكميم بالأسلاك وتقدير المكعب، وMICE، وMissForest، وإتمام المصفوفة وعدة طرق RNN)؛ حيث تتراوح التحسينات النموذجية في خطأ الجذر المتوسط المربع بين 35% - 50%. تجارب إضافية قائمة على نفس الخمسة قواعد بيانات تؤكد أن التحسينات التي توفرها طريقتنا ذات صلابة عالية للغاية.