HyperAIHyperAI

Command Palette

Search for a command to run...

G-TAD: التعرف على الموضع الفرعي للرسوم البيانية للكشف عن الإجراءات الزمنية

Mengmeng Xu Chen Zhao David S. Rojas Ali Thabet Bernard Ghanem

الملخص

ك détecter الفعل الزمني هو مهمة أساسية لكنها صعبة في فهم الفيديو. يُعد السياق المرئي دليلاً حاسماً للكشف الفعّال عن الأفعال، لكن الدراسات الحالية تركز بشكل رئيسي على السياق الزمني، وتتجاهل السياق الدلالي وكذلك خصائص السياق المهمة الأخرى. في هذا العمل، نقترح نموذجًا يعتمد على شبكة تلافيفية رسمية (GCN) لدمج سياق دلالي متعدد المستويات بشكل تكيفي في ميزات الفيديو، ونُصَوِّر كشف الفعل الزمني كمشكلة تحديد موقع فرع رسم بياني. بشكل محدد، نُعرّف القطع القصيرة للفيديو كعُقد رسمية، ونُعرّف الترابط بين القطع كحواف، والأفعال المرتبطة بالسياق كأجزاء فرعية للرسم البياني الهدف. وباستخدام التلافيف الرسّامي كعملية أساسية، نصمم وحدة GCN تُسمى GCNeXt، والتي تتعلم ميزات كل عقدة من خلال جمع سياقها وتحديث الحواف في الرسم البياني بشكل ديناميكي. ولتحديد موقع كل جزء فرعي، صممنا أيضًا طبقة SGAlign لدمج كل جزء فرعي في الفضاء الإقليدي. أظهرت التجارب الواسعة أن نموذج G-TAD قادر على اكتشاف سياقات فيديو فعّالة دون الحاجة إلى تدريب إضافي، ويحقق أداءً متفوقًا على مستويات الحد الأقصى في معيارين للكشف. على مجموعة بيانات ActivityNet-1.3، حقق متوسط mAP قدره 34.09٪؛ وعلى THUMOS14، بلغ 51.6٪ عند حدّ [email protected] عند دمجه مع طريقة معالجة الاقتراحات. يتوفر كود نموذج G-TAD بشكل عام على الرابط: https://github.com/frostinassiky/gtad.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp