HyperAIHyperAI
منذ 17 أيام

التحليل الزمني للإجراءات عبر الإنترنت مع الوعي بالتقدم في مقاطع الفيديو الإيغوسنتريكية للمهام الإجرائية

{Ehsan Elhamifar, YuHan Shen}
التحليل الزمني للإجراءات عبر الإنترنت مع الوعي بالتقدم في مقاطع الفيديو الإيغوسنتريكية للمهام الإجرائية
الملخص

نُعالج مشكلة تقسيم الأفعال في الوقت الفعلي بالنسبة لفيديوهات المهام الإجرائية ذات المنظور الشخصي (egocentric). في حين أن الدراسات السابقة ركّزت بشكل رئيسي على تقسيم الأفعال في الوقت غير الفعلي (offline)، حيث تكون الفيديوهات الكاملة متاحة أثناء التدريب والاستنتاج، فإن الانتقال إلى تقسيم الأفعال في الوقت الفعلي يُعد أمرًا حاسمًا للتطبيقات العملية مثل مساعدات المهام في الواقع المعزز/الواقع الافتراضي (AR/VR). وبشكل ملحوظ، يؤدي تطبيق نموذج تم تدريبه في الوقت غير الفعلي مباشرةً على الاستنتاج في الوقت الفعلي إلى انخفاض كبير في الأداء بسبب عدم التوافق بين مرحلتي التدريب والاستنتاج. نقترح إطارًا لتقسيم الأفعال في الوقت الفعلي من خلال ثلاث خطوات: أولاً، نُعدّل الهياكل الحالية لجعلها تُراعي السببية (causal). ثانيًا، نطوّر وحدة جديدة لتنبؤ تقدّم الفعل لتقدير ديناميكي لحالة الأفعال الجارية، واستخدام هذه التقديرات لتحسين تنبؤات تقسيم الأفعال السببية. ثالثًا، نقترح تعلّم رسوم بيانية للمهام من الفيديوهات التدريبية، واستغلالها للحصول على تقسيمات سلسة ومتماسكة مع التسلسل الإجرائي. وبدمج معلومات التقدّم مع الرسوم البيانية للمهام ضمن تقسيم الأفعال السببي، يُمكّن إطارنا من معالجة التحديات المتعلقة بالغموض في التنبؤات وتشتت التقسيم (oversegmentation) في التقسيم في الوقت الفعلي، ويحقق تحسينًا ملحوظًا على ثلاث مجموعات بيانات ذات منظور شخصي.