HyperAIHyperAI
منذ 17 أيام

الشبكات الاستعلامية الزمنية لفهم الفيديو الدقيق

Chuhan Zhang, Ankush Gupta, Andrew Zisserman
الشبكات الاستعلامية الزمنية لفهم الفيديو الدقيق
الملخص

هدفنا في هذا العمل هو التصنيف الدقيق للإجراءات في مقاطع الفيديو غير المُعدَّلة، حيث قد تمتد هذه الإجراءات عبر فترات زمنية طويلة أو قد تمتد فقط على عدد قليل من الإطارات في الفيديو. وقد قمنا بتحويل هذه المشكلة إلى آلية استعلام-استجابة، حيث يُوجَّه كل استعلام إلى سؤال محدد، ويملك مجموعة علامات استجابة خاصة به. ونقدم في هذا العمل أربع مساهمات رئيسية: (أولاً) نُقدِّم نموذجًا جديدًا يُسمَّى "شبكة الاستعلام الزمني" (Temporal Query Network)، التي تُمكِّن من وظيفة الاستعلام-الاستجابة، وتوفر فهمًا هيكلياً للإجراءات الدقيقة. وتُركِّز هذه الشبكة على المقاطع ذات الصلة لكل استعلام باستخدام آلية انتباه زمني، ويمكن تدريبها باستخدام العلامات الخاصة بكل استعلام فقط. (ثانيًا) نُقدِّم طريقة جديدة تُسمَّى "تحديث بنك الميزات العشوائي"، لتدريب الشبكة على مقاطع فيديو ذات أطوال مختلفة، مع استخدام العينة الكثيفة المطلوبة للإجابة على الاستفسارات الدقيقة. (ثالثًا) نُقارن بين شبكة الاستعلام الزمني (TQN) وأطر عمل أخرى وطرق إشراف نصي، ونحلل مزاياها وعيوبها. وأخيرًا، نُقيِّم الطريقة بشكل واسع على مجموعتي بيانات FineGym وDiving48 لتصنيف الإجراءات الدقيقة، ونُفَوِّت الحد الأقصى الحالي للتقنيات باستخدام فقط ميزات RGB.