الشبكات الاستعلامية الزمنية لفهم الفيديو الدقيق

هدفنا في هذا العمل هو التصنيف الدقيق للإجراءات في مقاطع الفيديو غير المُعدَّلة، حيث قد تمتد هذه الإجراءات عبر فترات زمنية طويلة أو قد تمتد فقط على عدد قليل من الإطارات في الفيديو. وقد قمنا بتحويل هذه المشكلة إلى آلية استعلام-استجابة، حيث يُوجَّه كل استعلام إلى سؤال محدد، ويملك مجموعة علامات استجابة خاصة به. ونقدم في هذا العمل أربع مساهمات رئيسية: (أولاً) نُقدِّم نموذجًا جديدًا يُسمَّى "شبكة الاستعلام الزمني" (Temporal Query Network)، التي تُمكِّن من وظيفة الاستعلام-الاستجابة، وتوفر فهمًا هيكلياً للإجراءات الدقيقة. وتُركِّز هذه الشبكة على المقاطع ذات الصلة لكل استعلام باستخدام آلية انتباه زمني، ويمكن تدريبها باستخدام العلامات الخاصة بكل استعلام فقط. (ثانيًا) نُقدِّم طريقة جديدة تُسمَّى "تحديث بنك الميزات العشوائي"، لتدريب الشبكة على مقاطع فيديو ذات أطوال مختلفة، مع استخدام العينة الكثيفة المطلوبة للإجابة على الاستفسارات الدقيقة. (ثالثًا) نُقارن بين شبكة الاستعلام الزمني (TQN) وأطر عمل أخرى وطرق إشراف نصي، ونحلل مزاياها وعيوبها. وأخيرًا، نُقيِّم الطريقة بشكل واسع على مجموعتي بيانات FineGym وDiving48 لتصنيف الإجراءات الدقيقة، ونُفَوِّت الحد الأقصى الحالي للتقنيات باستخدام فقط ميزات RGB.