HyperAIHyperAI
منذ 11 أيام

InternImage: استكشاف النماذج الأساسية البصرية ذات الحجم الكبير باستخدام التحولات المُعدَّلة

Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao
InternImage: استكشاف النماذج الأساسية البصرية ذات الحجم الكبير باستخدام التحولات المُعدَّلة
الملخص

بالمقارنة مع التقدم الكبير الذي حققته نماذج المحولات البصرية الضخمة (ViTs) في السنوات الأخيرة، لا تزال النماذج الضخمة المستندة إلى الشبكات العصبية التلافيفية (CNNs) في مرحلة مبكرة من التطور. يقدم هذا العمل نموذجًا أساسيًا جديدًا قائمًا على CNN، يُسمى InternImage، والذي يمكنه الاستفادة من زيادة عدد المعاملات وحجم البيانات التدريبية مثل نماذج ViTs. على عكس الشبكات التلافيفية الحديثة التي تركز على استخدام نوى كثيفة كبيرة، يعتمد InternImage على التحويل القابل للتشويه (deformable convolution) كعمليّة أساسية، مما يضمن للنموذج حقل استقبال فعّال واسع يلبي متطلبات المهام السفلى مثل الكشف والتقسيم، بالإضافة إلى القدرة على تجميع المساحات بشكل تكيفي بناءً على معلومات الإدخال والمهام. وبذلك، يقلل InternImage من التحيّز الاستنتاجي الصارم الخاص بالشبكات التلافيفية التقليدية، ويتيح تعلّم أنماط أقوى وأكثر متانة باستخدام معاملات ضخمة وبيانات ضخمة، تمامًا كما تفعل نماذج ViTs. وقد تم إثبات فعالية النموذج على معايير صعبة تشمل ImageNet وCOCO وADE20K. ومن المهم الإشارة إلى أن نموذج InternImage-H حقق رقماً قياسياً جديداً بـ 65.4 mAP على مجموعة COCO test-dev و62.9 mIoU على ADE20K، متفوّقاً على أحدث الشبكات التلافيفية والمحولات البصرية. وسيتم إصدار الشفرة المصدرية على الرابط: https://github.com/OpenGVLab/InternImage.

InternImage: استكشاف النماذج الأساسية البصرية ذات الحجم الكبير باستخدام التحولات المُعدَّلة | أحدث الأوراق البحثية | HyperAI