شبكة ACSNet: شبكة فصل السياق الفعلي للتصنيف الزمني للأفعال بإشراف ضعيف

الهدف من تقنية تحديد الأحداث الزمنية تحت الإشراف الضعيف (WS-TAL) هو تحديد جميع حالات الأحداث في مقطع فيديو غير مقصوص باستخدام إشراف على مستوى الفيديو فقط. نظرًا لعدم وجود تسميات على مستوى الإطار خلال التدريب، تعتمد الأساليب الحالية لـ WS-TAL على آليات الانتباه لتحديد المقاطع أو الإطارات المتقدمة التي تسهم في مهمة التصنيف على مستوى الفيديو. غالبًا ما تخلط هذه الاستراتيجية بين السياق والحدث الحقيقي في النتائج المحددة زمنيًا. فصل الحدث عن السياق هو مشكلة أساسية لتحقيق دقة عالية في WS-TAL، ولكنها تمثل تحديًا كبيرًا وقد تم تجاهلها إلى حد كبير في الأدبيات العلمية. في هذا البحث، نقدم شبكة فصل الحدث والسياق (ACSNet) التي تأخذ بعين الاعتبار السياق بشكل صريح للحصول على تحديد دقيق للأحداث. تتكون الشبكة من فرعين (أي فرع المقدمة والخلفية وفرع الحدث والسياق). يميز فرع المقدمة والخلفية أولاً بين المقدمة والخلفية داخل الفيديو بأكمله، بينما يقوم فرع الحدث والسياق بفصل المقدمة بشكل أكبر كحدث أو سياق. نربط مقاطع الفيديو بمركبين خفيين (أي مركب إيجابي ومركبة سلبي)، ويمكن أن تصف تركيباتهما المختلفة بشكل فعال المقدمة، الحدث والسياق. بالإضافة إلى ذلك، نقدم علامات موسعة مع فئات سياق مساعدة لتسهيل تعلم فصل الحدث والسياق. أظهرت التجارب على قاعدة بيانات THUMOS14 وActivityNet v1.2/v1.3 أن ACSNet تتفوق بشكل كبير على الأساليب الرائدة حاليًا في WS-TAL.注释:- "Weakly-supervised Temporal Action Localization" 翻译为 "تقنية تحديد الأحداث الزمنية تحت الإشراف الضعيف" (WS-TAL).- "Action-Context Separation Network" 翻译为 "شبكة فصل الحدث والسياق" (ACSNet).- "Foreground-Background branch" 翻译为 "فرع المقدمة والخلفية".- "Action-Context branch" 翻译为 "فرع الحدث والسياق".- 其他术语如 “positive component” 和 “negative component” 也进行了相应的翻译。