منذ 17 أيام
تمييز الحركات في الفيديوهات من وجهات نظر غير معروفة
AJ Piergiovanni, Michael S. Ryoo

الملخص
تُستخدم الطرق القياسية لتمييز الفيديو شبكات عصبية تلافيفية كبيرة مصممة لالتقاط البيانات المكانية الزمنية. ومع ذلك، يتطلب تدريب هذه النماذج كمية كبيرة من البيانات المدربة المُعلَّمة، والتي تتضمن تنوعًا واسعًا في الحركات، والمشاهد، والبيئات، وزوايا الكاميرات. في هذه الورقة، نُظهر أن النماذج الحالية للشبكات العصبية التلافيفية لا تستطيع تمييز الحركات من زوايا كاميرات غير موجودة في بيانات التدريب الخاصة بها (أي تمييز الحركات من زوايا غير مرئية). ولحل هذه المشكلة، نطور مناهج قائمة على التمثيلات الثلاثية الأبعاد، ونُقدِّم طبقة جديدة للتجزئة الهندسية يمكنها تعلم تمثيلات غير حساسة لزاوية الرؤية. علاوة على ذلك، نُقدِّم مجموعة بيانات جديدة وصعبة لتمييز الحركات من زوايا غير مرئية، ونُظهر قدرة هذه المناهج على تعلم تمثيلات غير حساسة لزاوية الرؤية.