HyperAIHyperAI
منذ 12 أيام

PivoTAL: إشراف مُوجه بالمعطيات السابقة للتحديد الزمني للإجراءات الضعيف التدريب

{Mei Chen, Mubarak Shah, Sandra Sajeev, Matthew Hall, Ye Yu, Gaurav Mittal, Mamshad Nayeem Rizve}
PivoTAL: إشراف مُوجه بالمعطيات السابقة للتحديد الزمني للإجراءات الضعيف التدريب
الملخص

يهدف التعرف على الحركات الزمنية الضعيف المراقب (WTAL) إلى تحديد الحركات في مقاطع الفيديو غير المُقَصَّصة باستخدام فقط مراقبة على مستوى الفيديو. تعتمد معظم الدراسات الحديثة على نهج التعرف على الحركات من خلال التصنيف، حيث تحاول هذه الأساليب تصنيف كل إطار في الفيديو، ثم تطبق لاحقًا مجموعة من خطوات المعالجة اللاحقة المصممة يدويًا لدمج تنبؤات الحركة لكل إطار إلى مقاطع حركية (action snippets). وبسبب هذا النهج، يفتقر النموذج إلى فهم صريح للحدود الزمنية للحركات، ويتوجه إلى التركيز فقط على أكثر الأجزاء التمييزية في الفيديو، مما يؤدي إلى تأدية تعرف غير كامل على الحركات. ولحل هذه المشكلة، نقدم PivoTAL، أي "الإشراف المُوجه بالسياق للاستدلال الزمني الضعيف على الحركات"، الذي يعالج WTAL من منظور التعرف على الحركات من خلال التعرف على الحركات مباشرة، بدلًا من الاعتماد على التصنيف. لتحقيق ذلك، يستخدم PivoTAL الترتيبات الزمانية والمكانية الكامنة في مقاطع الفيديو من خلال ثلاثة أنواع من السياقات: سياق مشهد مخصص للحركة، وسياق لتكوين مقاطع الحركة، بالإضافة إلى سياق جاوسية قابلة للتعلم، لتقديم إشراف لتدريب النموذج القائم على التعرف. أظهر PivoTAL تحسنًا كبيرًا (بحد أدنى 3% في متوسط دقة التصنيف المُتوسّط - avg mAP) مقارنةً بجميع الأساليب السابقة على مجموعتي البيانات المعياريّتين THUMOS-14 وActivityNet-v1.3.

PivoTAL: إشراف مُوجه بالمعطيات السابقة للتحديد الزمني للإجراءات الضعيف التدريب | أحدث الأوراق البحثية | HyperAI