منذ 6 أشهر

الملخص

نقدّم BoTNet، وهي بنية أساسية بسيطة من الناحية المفاهيمية ولكنها قوية، تُدمج الانتباه الذاتي لمهام متعددة في الرؤية الحاسوبية، بما في ذلك تصنيف الصور، وكشف الكائنات، والتقسيم الحديدي. وباستبدال التحويلات المكانية فقط بانتباه ذاتي عالمي في الكتل الثلاثة الأخيرة من نوع المُحَوِّل (bottleneck) في نموذج ResNet، دون إجراء أي تغييرات أخرى، نُحسّن بشكل ملحوظ الأداء مقارنةً بالأساسيات (baselines) في مهام التقسيم الحديدي وكشف الكائنات، مع تقليل عدد المعاملات (parameters) وتقديم تكاليف زمنية مُضافة ضئيلة. من خلال تصميم BoTNet، نُشير أيضًا إلى كيفية اعتبار كتل المُحَوِّل في ResNet التي تدمج الانتباه الذاتي ككتل مشابهة لكتل المُحَوِّل (Transformer blocks). وبلا أي إضافات مُضافة، تحقق BoTNet أداءً بنسبة 44.4% في مؤشر Mask AP و49.7% في مؤشر Box AP على معيار COCO للتقسيم الحديدي باستخدام إطار عمل Mask R-CNN؛ ما يفوق أفضل نتائج نموذج وحيد ومقاييس وحيدة سابقة نُشرت لنموذج ResNeSt عند تقييمه على مجموعة التحقق من COCO. وأخيرًا، نقدّم تكيّفًا بسيطًا لتصميم BoTNet لمهام تصنيف الصور، مما يؤدي إلى نماذج تحقق أداءً قويًا بنسبة 84.7% في الدقة العليا (top-1) على معيار ImageNet، مع تسريع يصل إلى 1.64 مرة في وقت الحساب مقارنةً بنماذج EfficientNet الشهيرة على معدّات TPU-v3. نأمل أن يُمثّل نهجنا البسيط والفعال قاعدة قوية للبحث المستقبلي في نماذج الانتباه الذاتي في مجال الرؤية الحاسوبية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار