HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات البصرية المتكررة للكشف عن الكائنات باستخدام كاميرات الأحداث

Mathias Gehrig Davide Scaramuzza

الملخص

نقدّم نماذج التحول البصري المتكررة (RVTs)، وهي هيكل أساسي جديد للكشف عن الكائنات باستخدام كاميرات الأحداث. توفر كاميرات الأحداث معلومات بصرية بتأخير أقل من ميلي ثانية، وبنطاق ديناميكي عالٍ، مع مقاومة قوية للضباب الحركي. تمتلك هذه الخصائص الفريدة إمكانيات كبيرة للكشف عن الكائنات وتعقبها بتأخير منخفض في السيناريوهات الحاسمة زمنيًا. سبق أن حققت الأبحاث السابقة في مجال الرؤية القائمة على الأحداث أداءً متميزًا في الكشف، لكن بسعر زمن استنتاج كبير، يتجاوز عادةً 40 ميلي ثانية. وباسترجاع التصميم الرئيسي للهيكل الأساسي المتكرر، تم تخفيض زمن الاستنتاج بمقدار 6 أضعاف مع الحفاظ على أداء مشابه. لتحقيق ذلك، استكشفنا تصميمًا متعدد المراحل يعتمد على ثلاث مفاهيم رئيسية في كل مرحلة: أولاً، سبق تبادلي (convolutional prior) يمكن اعتباره ترميزًا مكانيًا مشروطًا. ثانيًا، انتباه ذاتي موضعي ومتعدد التباعد (dilated global self-attention) لتفاعل الميزات المكانية. ثالثًا، تجميع الميزات الزمنية المتكررة لتقليل التأخير مع الحفاظ على المعلومات الزمنية. يمكن تدريب نماذج RVT من الصفر للوصول إلى أداء متميز في الكشف عن الكائنات القائمة على الأحداث، حيث تحقق دقة متوسطة مُرَكَّبة (mAP) بلغت 47.2٪ على مجموعة بيانات Gen1 للسيارات. وفي الوقت نفسه، تتميز نماذج RVT بسرعة استنتاج عالية (أقل من 12 ميلي ثانية على وحدة معالجة رسومات T4) وكفاءة ممتازة في عدد المعاملات (بمقدار خمسة أضعاف أقل من الأدوات السابقة). تقدم دراستنا رؤى جديدة حول خيارات التصميم الفعّالة التي يمكن أن تكون مفيدة للبحث في مجالات أبعد من الرؤية القائمة على الأحداث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp