HyperAIHyperAI
منذ 3 أشهر

TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو

Qiang Qi, Xiao Wang
TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو
الملخص

لقد حققت الكشف عن الكائنات في الفيديو تقدماً ملحوظاً في السنوات الأخيرة بفضل الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs). عادةً، تتميز الشبكات التلافيفية بقدرتها على استخلاص السمات المحلية، لكنها تواجه صعوبات في نمذجة التمثيلات العالمية. من ناحية أخرى، تمتلك المحولات البصرية قدرة عالية على استخلاص السمات العالمية على مدى مسافات طويلة، لكنها تواجه تحديات في تمثيل التفاصيل الدقيقة للسمات المحلية. تعتمد الطرق الجاهزة للكشف عن الكائنات في الفيديو بشكل حصري على الشبكات التلافيفية أو المحولات البصرية لجمع السمات، مما يحد من قدرتها على الاستفادة في آنٍ واحد من المعلومات العالمية والمكانية، ما يؤدي إلى أداء محدود في الكشف. في هذا البحث، نقترح شبكة مُدمجة تُسمى TGBFormer (Transformer-GraphFormer Blender Network) للكشف عن الكائنات في الفيديو، مع ثلاث تحسينات تقنية رئيسية تهدف إلى استغلال الفوائد الكاملة للمحولات والشبكات التلافيفية الرسومية (GCNs) مع معالجة عيوب كل منهما. أولاً، نطور وحدة محول فضائي-زمني لجمع المعلومات السياقية العالمية، مما يشكل تمثيلاً عالمياً يعتمد على اعتماديات السمات على مسافات طويلة. ثانياً، نُقدّم وحدة GraphFormer فضائية-زمنية تستخدم العلاقات المكانية والزمنية المحلية لجمع السمات، مما يُنتج تمثيلاً محلياً جديداً مكملًا لنتائج المحولات. ثالثاً، نصمم وحدة مُدمجة للسمات العالمية والمكانية لربط التمثيلات العالمية المستندة إلى المحولات مع التمثيلات المحلية المستندة إلى GraphFormer بشكل تكيفي. أظهرت التجارب الواسعة أن TGBFormer يحقق نتائج جديدة من نوعها على مجموعة بيانات ImageNet VID، حيث بلغت دقة الكشف المتوسطة (mAP) 86.5% مع تشغيل بسرعة تقارب 41.0 إطارًا في الثانية (FPS) على بطاقة GPU واحدة من نوع Tesla A100.