G-TAD: التعرف على الموضع الفرعي للرسوم البيانية للكشف عن الإجراءات الزمنية

ك détecter الفعل الزمني هو مهمة أساسية لكنها صعبة في فهم الفيديو. يُعد السياق المرئي دليلاً حاسماً للكشف الفعّال عن الأفعال، لكن الدراسات الحالية تركز بشكل رئيسي على السياق الزمني، وتتجاهل السياق الدلالي وكذلك خصائص السياق المهمة الأخرى. في هذا العمل، نقترح نموذجًا يعتمد على شبكة تلافيفية رسمية (GCN) لدمج سياق دلالي متعدد المستويات بشكل تكيفي في ميزات الفيديو، ونُصَوِّر كشف الفعل الزمني كمشكلة تحديد موقع فرع رسم بياني. بشكل محدد، نُعرّف القطع القصيرة للفيديو كعُقد رسمية، ونُعرّف الترابط بين القطع كحواف، والأفعال المرتبطة بالسياق كأجزاء فرعية للرسم البياني الهدف. وباستخدام التلافيف الرسّامي كعملية أساسية، نصمم وحدة GCN تُسمى GCNeXt، والتي تتعلم ميزات كل عقدة من خلال جمع سياقها وتحديث الحواف في الرسم البياني بشكل ديناميكي. ولتحديد موقع كل جزء فرعي، صممنا أيضًا طبقة SGAlign لدمج كل جزء فرعي في الفضاء الإقليدي. أظهرت التجارب الواسعة أن نموذج G-TAD قادر على اكتشاف سياقات فيديو فعّالة دون الحاجة إلى تدريب إضافي، ويحقق أداءً متفوقًا على مستويات الحد الأقصى في معيارين للكشف. على مجموعة بيانات ActivityNet-1.3، حقق متوسط mAP قدره 34.09٪؛ وعلى THUMOS14، بلغ 51.6٪ عند حدّ [email protected] عند دمجه مع طريقة معالجة الاقتراحات. يتوفر كود نموذج G-TAD بشكل عام على الرابط: https://github.com/frostinassiky/gtad.