HyperAIHyperAI
منذ 15 أيام

ConvNet لعقد 2020

Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie
ConvNet لعقد 2020
الملخص

بدأ عصر "العِشْرِيناتِ الصَّارِخة" في التعرف البصري مع ظهور نماذج التحولات البصرية (Vision Transformers)، التي سرعان ما تفوقت على الشبكات العصبية التلافيفية (ConvNets) لتُصبح النموذج الرائد في تصنيف الصور. ومع ذلك، فإن نموذج ViT القياسي يواجه صعوبات عند تطبيقه على مهام الرؤية الحاسوبية العامة مثل كشف الأجسام والتقسيم الدلالي. إنما كانت التحولات الهرمية (مثل تحولات Swin) هي التي أعادت تضمين عدة افتراضات مسبقة من الشبكات التلافيفية، مما جعل التحولات عملية فعّالة كهيكل أساسي عام للرؤية، وأظهرت أداءً متميزًا في مجموعة واسعة من مهام الرؤية. ومع ذلك، لا يزال أداء هذه النماذج الهجينة يُعزى بشكل كبير إلى الميزة الجوهرية للتحويلات، بدلًا من التحيّزات الاستنتاجية المتأصلة في التلافيف. في هذه الدراسة، نعيد تقييم مساحات التصميم ونختبر حدود ما يمكن أن تحققه شبكة تلافيفية نقية. نُجري تطويرًا تدريجيًا لشبكة ResNet القياسية نحو تصميم نموذج تحول بصري، ونكتشف عدة عناصر رئيسية تُسهم في الفرق في الأداء خلال هذه العملية. النتيجة الناتجة عن هذا الاستكشاف هي عائلة من النماذج القائمة على الشبكات التلافيفية النقية، تُدعى ConvNeXt. تم بناء ConvNeXts بالكامل من وحدات الشبكة التلافيفية القياسية، وتُنافس التحولات من حيث الدقة والقابلية للتوسع، حيث تحقق دقة 87.8% في تصنيف ImageNet (التصنيف الأولي)، وتتفوّق على تحولات Swin في مهام كشف الأجسام على COCO والتقسيم على ADE20K، مع الحفاظ على بساطة وفعالية الشبكات التلافيفية القياسية.

ConvNet لعقد 2020 | أحدث الأوراق البحثية | HyperAI