ABN: شبكات الحدود المدركة للوكلاء لتوليد اقتراحات الأحداث الزمنية

توليد مقترحات العمل الزمنية (TAPG) يهدف إلى تقدير الفواصل الزمنية للأعمال في مقاطع الفيديو غير المقصوصة، وهي مهمة صعبة ولكنها تلعب دورًا مهمًا في العديد من مهام تحليل وفهم الفيديو. على الرغم من الإنجازات الكبيرة في مجال TAPG، فإن معظم الأعمال الحالية تتجاهل الإدراك البشري للتفاعل بين الأطراف والبيئة المحيطة من خلال تطبيق نموذج التعلم العميق كصندوق أسود على مقاطع الفيديو غير المقصوصة لاستخراج تمثيل الفيديو البصري. لذلك، يمكن أن يكون من المفيد ومحتملًا أن يحسن أداء TAPG إذا تمكنا من التقاط هذه التفاعلات بين الأطراف والبيئة. في هذا البحث، نقترح إطارًا جديدًا باسم شبكة الحدود الواعية بالأطراف (ABN)، والتي تتكون من شبكتين فرعيتين: (أ) شبكة التمثيل الواعية بالأطراف للحصول على علاقات الأطراف-الأطراف والأطراف-البيئة في تمثيل الفيديو، و(ب) شبكة توليد الحدود لتقدير درجة الثقة للفواصل الزمنية.في شبكة التمثيل الواعية بالأطراف، يتم التعبير عن التفاعلات بين الأطراف عبر المسار المحلي، والذي يعمل على المستوى المحلي لتركيزه على حركات الأطراف، بينما يتم التعبير عن الإدراك الشامل للبيئة المحيطة عبر المسار العالمي، والذي يعمل على المستوى العالمي لاكتشاف آثار الأطراف-البيئة. أظهرت التقييمات الشاملة على مجموعتي بيانات THUMOS-14 (20 عمل) وActivityNet-1.3 (200 عمل) باستخدام شبكات ظهر مختلفة (مثل C3D وSlowFast وTwo-Stream) أن شبكتنا المقترحة ABN تتفوق بشكل مستقر على أفضل الأساليب الموجودة حاليًا في TAPG بغض النظر عن الشبكة الظهر المستخدمة.قمنا أيضًا بفحص جودة المقترحات من خلال الاستفادة من المقترحات التي تم إنشاؤها بواسطة طريقتنا وإضافتها إلى إطارات اكتشاف العمل الزمني (TAD) وتقييم أدائها في الاكتشاف. يمكن العثور على الكود المصدر لهذا البحث في الرابط التالي: https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.git.