HyperAIHyperAI

Command Palette

Search for a command to run...

ConvNet لعقد 2020

Zhuang Liu Hanzi Mao Chao-Yuan Wu Christoph Feichtenhofer Trevor Darrell Saining Xie

الملخص

بدأ عصر "العِشْرِيناتِ الصَّارِخة" في التعرف البصري مع ظهور نماذج التحولات البصرية (Vision Transformers)، التي سرعان ما تفوقت على الشبكات العصبية التلافيفية (ConvNets) لتُصبح النموذج الرائد في تصنيف الصور. ومع ذلك، فإن نموذج ViT القياسي يواجه صعوبات عند تطبيقه على مهام الرؤية الحاسوبية العامة مثل كشف الأجسام والتقسيم الدلالي. إنما كانت التحولات الهرمية (مثل تحولات Swin) هي التي أعادت تضمين عدة افتراضات مسبقة من الشبكات التلافيفية، مما جعل التحولات عملية فعّالة كهيكل أساسي عام للرؤية، وأظهرت أداءً متميزًا في مجموعة واسعة من مهام الرؤية. ومع ذلك، لا يزال أداء هذه النماذج الهجينة يُعزى بشكل كبير إلى الميزة الجوهرية للتحويلات، بدلًا من التحيّزات الاستنتاجية المتأصلة في التلافيف. في هذه الدراسة، نعيد تقييم مساحات التصميم ونختبر حدود ما يمكن أن تحققه شبكة تلافيفية نقية. نُجري تطويرًا تدريجيًا لشبكة ResNet القياسية نحو تصميم نموذج تحول بصري، ونكتشف عدة عناصر رئيسية تُسهم في الفرق في الأداء خلال هذه العملية. النتيجة الناتجة عن هذا الاستكشاف هي عائلة من النماذج القائمة على الشبكات التلافيفية النقية، تُدعى ConvNeXt. تم بناء ConvNeXts بالكامل من وحدات الشبكة التلافيفية القياسية، وتُنافس التحولات من حيث الدقة والقابلية للتوسع، حيث تحقق دقة 87.8% في تصنيف ImageNet (التصنيف الأولي)، وتتفوّق على تحولات Swin في مهام كشف الأجسام على COCO والتقسيم على ADE20K، مع الحفاظ على بساطة وفعالية الشبكات التلافيفية القياسية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ConvNet لعقد 2020 | مستندات | HyperAI