منذ 6 أشهر

الملخص

لقد حققت الكشف عن الكائنات في الفيديو تقدماً ملحوظاً في السنوات الأخيرة بفضل الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs). عادةً، تتميز الشبكات التلافيفية بقدرتها على استخلاص السمات المحلية، لكنها تواجه صعوبات في نمذجة التمثيلات العالمية. من ناحية أخرى، تمتلك المحولات البصرية قدرة عالية على استخلاص السمات العالمية على مدى مسافات طويلة، لكنها تواجه تحديات في تمثيل التفاصيل الدقيقة للسمات المحلية. تعتمد الطرق الجاهزة للكشف عن الكائنات في الفيديو بشكل حصري على الشبكات التلافيفية أو المحولات البصرية لجمع السمات، مما يحد من قدرتها على الاستفادة في آنٍ واحد من المعلومات العالمية والمكانية، ما يؤدي إلى أداء محدود في الكشف. في هذا البحث، نقترح شبكة مُدمجة تُسمى TGBFormer (Transformer-GraphFormer Blender Network) للكشف عن الكائنات في الفيديو، مع ثلاث تحسينات تقنية رئيسية تهدف إلى استغلال الفوائد الكاملة للمحولات والشبكات التلافيفية الرسومية (GCNs) مع معالجة عيوب كل منهما. أولاً، نطور وحدة محول فضائي-زمني لجمع المعلومات السياقية العالمية، مما يشكل تمثيلاً عالمياً يعتمد على اعتماديات السمات على مسافات طويلة. ثانياً، نُقدّم وحدة GraphFormer فضائية-زمنية تستخدم العلاقات المكانية والزمنية المحلية لجمع السمات، مما يُنتج تمثيلاً محلياً جديداً مكملًا لنتائج المحولات. ثالثاً، نصمم وحدة مُدمجة للسمات العالمية والمكانية لربط التمثيلات العالمية المستندة إلى المحولات مع التمثيلات المحلية المستندة إلى GraphFormer بشكل تكيفي. أظهرت التجارب الواسعة أن TGBFormer يحقق نتائج جديدة من نوعها على مجموعة بيانات ImageNet VID، حيث بلغت دقة الكشف المتوسطة (mAP) 86.5% مع تشغيل بسرعة تقارب 41.0 إطارًا في الثانية (FPS) على بطاقة GPU واحدة من نوع Tesla A100.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TGBFormer: شبكة مزجية قائمة على Transformer-GraphFormer للكشف عن الكائنات في الفيديو

Qiang Qi Xiao Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters