HyperAIHyperAI
منذ 11 أيام

شبكة رسم بياني للخياطة الذاتية الفيديو لتحديد الإجراءات الزمنية

Chen Zhao, Ali Thabet, Bernard Ghanem
شبكة رسم بياني للخياطة الذاتية الفيديو لتحديد الإجراءات الزمنية
الملخص

التعرف على الحركة الزمنية (TAL) في الفيديوهات يُعد مهمة صعبة، خاصة بسبب التباين الكبير في المدى الزمني للحركات. غالبًا ما تمثل الحركات القصيرة نسبة كبيرة من البيانات المستخدمة في التدريب، لكنها تُظهر أداءً أقل مقارنة بالحركات الأخرى. في هذه الورقة، ن tackled التحدي المتعلق بالحركات القصيرة ونُقدِّم حلًا متعدد المستويات يُسمى شبكة الرسم البياني للربط الذاتي في الفيديو (VSGN). تحتوي VSGN على مكوَّنين رئيسيين: الربط الذاتي للفيديو (VSS) والشبكة الهرمية الرسومية عبر المقياس (xGPN). في VSS، نركّز على فترة قصيرة من الفيديو ونُضاعف حجمها على طول المحور الزمني للحصول على مقياس أكبر. ثم نُلصق القطعة الأصلية مع نسخة مُضاعفة من نفسها في تسلسل إدخال واحد للاستفادة من الخصائص المكملة لكل من المقياسين. أما المكوِّن xGPN، فيستغل العلاقات عبر المقياس من خلال هرم من الشبكات الرسومية عبر المقياس، حيث يحتوي كل مستوى من هذه الشبكات على وحدة هجينة لجمع الميزات من داخل المقياس نفسه وكذلك من خارجه. تُعزز VSGN ليس فقط تمثيلات الميزات، بل تُولِّد أيضًا عددًا أكبر من المفاتيح الإيجابية للحركات القصيرة، وأيضًا عينات تدريب قصيرة أكثر. أظهرت التجارب أن VSGN تُحسّن بشكل ملحوظ أداء التعرف على الحركات القصيرة، وتحقق في الوقت نفسه أفضل أداء حالي على مجموعتي بيانات THUMOS-14 وActivityNet-v1.3.

شبكة رسم بياني للخياطة الذاتية الفيديو لتحديد الإجراءات الزمنية | أحدث الأوراق البحثية | HyperAI