HyperAIHyperAI
منذ 9 أيام

تعلم نقاط المفاتيح الشبكية الدقيقة لتنبؤ الفيديو الفعّال

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
تعلم نقاط المفاتيح الشبكية الدقيقة لتنبؤ الفيديو الفعّال
الملخص

تستهلك طرق توقع الفيديو عادةً موارد حوسبة كبيرة أثناء التدريب والتنفيذ، ومن بين هذه الطرق، تُظهر النماذج القائمة على النقاط المفتاحية تحسينًا واعدًا من حيث الكفاءة من خلال تبسيط التوقعات الصورة الكثيفة إلى توقعات خفيفة للنقاط المفتاحية. ومع ذلك، تُعامل مواقع النقاط المفتاحية غالبًا فقط كإحداثيات مستمرة، مما يجعل التعلم عرضة للتشويش الناتج عن الانحرافات المعجمية غير المهمة في الفيديوهات، ما يؤدي إلى عدم دقة نمذجة النقاط المفتاحية. في هذه الورقة، نصمم إطارًا جديدًا لتعلم النقاط المفتاحية الشبكية، بهدف تمثيل متوسط موثوق وقابل للتفسير للنقاط المفتاحية، لتمكين توقع فيديو فعّال على المدى الطويل. نمتلك مساهمتين تقنيتين رئيسيتين. أولاً، نحدد النقاط المفتاحية من خلال القفز بين المواقع المرشحة في فضاء الشبكة المُنشأ لدينا، ونُصاغ خسارة تجميعية (condensation loss) لتحفيز النقاط المفتاحية ذات معنى وقادر على التمثيل القوي. ثانيًا، نُقدّم خريطة ثنائية الأبعاد لتمثيل النقاط المفتاحية الشبكية المُكتشفة، ثم نقترح نقل مواقع النقاط المفتاحية مع عشوائية من خلال اختيار عناصر من فضاء الشبكة المنفصلة، مما يحافظ على البنية المكانية للنقاط المفتاحية على مدى طويل، لتحسين توليد الإطارات المستقبلية. تُثبت التجارب الواسعة أن طريقة التوقع لدينا تتفوق على أحدث الطرق العشوائية لتوقع الفيديو، مع توفير أكثر من 98% من موارد الحوسبة. كما نُظهر فعالية طريقة التوقع لدينا على مجموعة بيانات جراحية مساعدة بالروبوت، مع نتائج واعدة. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/xjgaocs/Grid-Keypoint-Learning.