منذ 6 أشهر

الملخص

بدأ عصر "العِشْرِيناتِ الصَّارِخة" في التعرف البصري مع ظهور نماذج التحولات البصرية (Vision Transformers)، التي سرعان ما تفوقت على الشبكات العصبية التلافيفية (ConvNets) لتُصبح النموذج الرائد في تصنيف الصور. ومع ذلك، فإن نموذج ViT القياسي يواجه صعوبات عند تطبيقه على مهام الرؤية الحاسوبية العامة مثل كشف الأجسام والتقسيم الدلالي. إنما كانت التحولات الهرمية (مثل تحولات Swin) هي التي أعادت تضمين عدة افتراضات مسبقة من الشبكات التلافيفية، مما جعل التحولات عملية فعّالة كهيكل أساسي عام للرؤية، وأظهرت أداءً متميزًا في مجموعة واسعة من مهام الرؤية. ومع ذلك، لا يزال أداء هذه النماذج الهجينة يُعزى بشكل كبير إلى الميزة الجوهرية للتحويلات، بدلًا من التحيّزات الاستنتاجية المتأصلة في التلافيف. في هذه الدراسة، نعيد تقييم مساحات التصميم ونختبر حدود ما يمكن أن تحققه شبكة تلافيفية نقية. نُجري تطويرًا تدريجيًا لشبكة ResNet القياسية نحو تصميم نموذج تحول بصري، ونكتشف عدة عناصر رئيسية تُسهم في الفرق في الأداء خلال هذه العملية. النتيجة الناتجة عن هذا الاستكشاف هي عائلة من النماذج القائمة على الشبكات التلافيفية النقية، تُدعى ConvNeXt. تم بناء ConvNeXts بالكامل من وحدات الشبكة التلافيفية القياسية، وتُنافس التحولات من حيث الدقة والقابلية للتوسع، حيث تحقق دقة 87.8% في تصنيف ImageNet (التصنيف الأولي)، وتتفوّق على تحولات Swin في مهام كشف الأجسام على COCO والتقسيم على ADE20K، مع الحفاظ على بساطة وفعالية الشبكات التلافيفية القياسية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار