HyperAIHyperAI
منذ 17 أيام

المحولات ذات الحواجز للتمييز البصري

Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, Ashish Vaswani
المحولات ذات الحواجز للتمييز البصري
الملخص

نقدّم BoTNet، وهي بنية أساسية بسيطة من الناحية المفاهيمية ولكنها قوية، تُدمج الانتباه الذاتي لمهام متعددة في الرؤية الحاسوبية، بما في ذلك تصنيف الصور، وكشف الكائنات، والتقسيم الحديدي. وباستبدال التحويلات المكانية فقط بانتباه ذاتي عالمي في الكتل الثلاثة الأخيرة من نوع المُحَوِّل (bottleneck) في نموذج ResNet، دون إجراء أي تغييرات أخرى، نُحسّن بشكل ملحوظ الأداء مقارنةً بالأساسيات (baselines) في مهام التقسيم الحديدي وكشف الكائنات، مع تقليل عدد المعاملات (parameters) وتقديم تكاليف زمنية مُضافة ضئيلة. من خلال تصميم BoTNet، نُشير أيضًا إلى كيفية اعتبار كتل المُحَوِّل في ResNet التي تدمج الانتباه الذاتي ككتل مشابهة لكتل المُحَوِّل (Transformer blocks). وبلا أي إضافات مُضافة، تحقق BoTNet أداءً بنسبة 44.4% في مؤشر Mask AP و49.7% في مؤشر Box AP على معيار COCO للتقسيم الحديدي باستخدام إطار عمل Mask R-CNN؛ ما يفوق أفضل نتائج نموذج وحيد ومقاييس وحيدة سابقة نُشرت لنموذج ResNeSt عند تقييمه على مجموعة التحقق من COCO. وأخيرًا، نقدّم تكيّفًا بسيطًا لتصميم BoTNet لمهام تصنيف الصور، مما يؤدي إلى نماذج تحقق أداءً قويًا بنسبة 84.7% في الدقة العليا (top-1) على معيار ImageNet، مع تسريع يصل إلى 1.64 مرة في وقت الحساب مقارنةً بنماذج EfficientNet الشهيرة على معدّات TPU-v3. نأمل أن يُمثّل نهجنا البسيط والفعال قاعدة قوية للبحث المستقبلي في نماذج الانتباه الذاتي في مجال الرؤية الحاسوبية.

المحولات ذات الحواجز للتمييز البصري | أحدث الأوراق البحثية | HyperAI