HyperAIHyperAI

Command Palette

Search for a command to run...

TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو

Qiang Qi Xiao Wang

الملخص

لقد حققت الكشف عن الكائنات في الفيديو تقدماً ملحوظاً في السنوات الأخيرة بفضل الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs). عادةً، تتميز الشبكات التلافيفية بقدرتها على استخلاص السمات المحلية، لكنها تواجه صعوبات في نمذجة التمثيلات العالمية. من ناحية أخرى، تمتلك المحولات البصرية قدرة عالية على استخلاص السمات العالمية على مدى مسافات طويلة، لكنها تواجه تحديات في تمثيل التفاصيل الدقيقة للسمات المحلية. تعتمد الطرق الجاهزة للكشف عن الكائنات في الفيديو بشكل حصري على الشبكات التلافيفية أو المحولات البصرية لجمع السمات، مما يحد من قدرتها على الاستفادة في آنٍ واحد من المعلومات العالمية والمكانية، ما يؤدي إلى أداء محدود في الكشف. في هذا البحث، نقترح شبكة مُدمجة تُسمى TGBFormer (Transformer-GraphFormer Blender Network) للكشف عن الكائنات في الفيديو، مع ثلاث تحسينات تقنية رئيسية تهدف إلى استغلال الفوائد الكاملة للمحولات والشبكات التلافيفية الرسومية (GCNs) مع معالجة عيوب كل منهما. أولاً، نطور وحدة محول فضائي-زمني لجمع المعلومات السياقية العالمية، مما يشكل تمثيلاً عالمياً يعتمد على اعتماديات السمات على مسافات طويلة. ثانياً، نُقدّم وحدة GraphFormer فضائية-زمنية تستخدم العلاقات المكانية والزمنية المحلية لجمع السمات، مما يُنتج تمثيلاً محلياً جديداً مكملًا لنتائج المحولات. ثالثاً، نصمم وحدة مُدمجة للسمات العالمية والمكانية لربط التمثيلات العالمية المستندة إلى المحولات مع التمثيلات المحلية المستندة إلى GraphFormer بشكل تكيفي. أظهرت التجارب الواسعة أن TGBFormer يحقق نتائج جديدة من نوعها على مجموعة بيانات ImageNet VID، حيث بلغت دقة الكشف المتوسطة (mAP) 86.5% مع تشغيل بسرعة تقارب 41.0 إطارًا في الثانية (FPS) على بطاقة GPU واحدة من نوع Tesla A100.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو | مستندات | HyperAI