HyperAIHyperAI

Command Palette

Search for a command to run...

المحولات ذات الحواجز للتمييز البصري

Aravind Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani

الملخص

نقدّم BoTNet، وهي بنية أساسية بسيطة من الناحية المفاهيمية ولكنها قوية، تُدمج الانتباه الذاتي لمهام متعددة في الرؤية الحاسوبية، بما في ذلك تصنيف الصور، وكشف الكائنات، والتقسيم الحديدي. وباستبدال التحويلات المكانية فقط بانتباه ذاتي عالمي في الكتل الثلاثة الأخيرة من نوع المُحَوِّل (bottleneck) في نموذج ResNet، دون إجراء أي تغييرات أخرى، نُحسّن بشكل ملحوظ الأداء مقارنةً بالأساسيات (baselines) في مهام التقسيم الحديدي وكشف الكائنات، مع تقليل عدد المعاملات (parameters) وتقديم تكاليف زمنية مُضافة ضئيلة. من خلال تصميم BoTNet، نُشير أيضًا إلى كيفية اعتبار كتل المُحَوِّل في ResNet التي تدمج الانتباه الذاتي ككتل مشابهة لكتل المُحَوِّل (Transformer blocks). وبلا أي إضافات مُضافة، تحقق BoTNet أداءً بنسبة 44.4% في مؤشر Mask AP و49.7% في مؤشر Box AP على معيار COCO للتقسيم الحديدي باستخدام إطار عمل Mask R-CNN؛ ما يفوق أفضل نتائج نموذج وحيد ومقاييس وحيدة سابقة نُشرت لنموذج ResNeSt عند تقييمه على مجموعة التحقق من COCO. وأخيرًا، نقدّم تكيّفًا بسيطًا لتصميم BoTNet لمهام تصنيف الصور، مما يؤدي إلى نماذج تحقق أداءً قويًا بنسبة 84.7% في الدقة العليا (top-1) على معيار ImageNet، مع تسريع يصل إلى 1.64 مرة في وقت الحساب مقارنةً بنماذج EfficientNet الشهيرة على معدّات TPU-v3. نأمل أن يُمثّل نهجنا البسيط والفعال قاعدة قوية للبحث المستقبلي في نماذج الانتباه الذاتي في مجال الرؤية الحاسوبية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
المحولات ذات الحواجز للتمييز البصري | مستندات | HyperAI