تويوتا سمارت هوم: الأنشطة اليومية الحقيقية في الحياة

يتأثر أداء الشبكات العصبية العميقة بشكل كبير بالكمية والجودة للبيانات المُعلَّمة. تتكوّن معظم مجموعات البيانات الكبيرة الخاصة بالتعرف على النشاط من بيانات مستمدة من الإنترنت، والتي لا تعكس التحديات الحقيقية التي تواجهها الأنشطة اليومية. في هذه الورقة البحثية، نقدّم مجموعة بيانات فيديو كبيرة من العالم الحقيقي للأنشطة اليومية: مشروع تويوتا سمارت هوم (Toyota Smarthome). تتكوّن المجموعة من 16 ألف مقطع فيديو مكوّن من صور ملونة (RGB) وبيانات عمق (D)، تضم 31 فئة من الأنشطة، أُنجزت من قبل كبار السن داخل منزل ذكي. على عكس المجموعات السابقة، كانت المقاطع الفيديوية غير مكتوبة مسبقًا بالكامل. ونتيجة لذلك، تقدّم هذه المجموعة عدة تحديات: تباين عالٍ داخل الفئة، عدم توازن عالٍ بين الفئات، وجود أنشطة بسيطة ومركبة، بالإضافة إلى أنشطة ذات حركات مشابهة وفترات زمنية متغيرة. تم تسمية الأنشطة باستخدام تسميات خشنة ودقيقة في آنٍ واحد. تميّز هذه الخصائص مجموعة بيانات تويوتا سمارت هوم عن غيرها من مجموعات البيانات المستخدمة في التعرف على الأنشطة. وبما أن الطرق الحديثة في التعرف على الأنشطة لا تُعَالِج التحديات التي تطرحها مجموعة بيانات تويوتا سمارت هوم، نقدّم طريقة جديدة للتعرف على الأنشطة تعتمد على آلية الانتباه. ونُقدّم آلية انتباه فضائية-زمنية مدفوعة بالوضع (pose-driven spatio-temporal attention) من خلال شبكات التعلم التلقائي ثلاثية الأبعاد (3D ConvNets). ونُظهر أن الطريقة الجديدة تفوق الطرق المتطورة حديثًا على مجموعات البيانات القياسية، وكذلك على مجموعة بيانات تويوتا سمارت هوم. ونُطلق المجموعة المفتوحة للبحث العلمي.