HyperAIHyperAI

Command Palette

Search for a command to run...

InternImage: استكشاف النماذج الأساسية البصرية ذات الحجم الكبير باستخدام التحولات المُعدَّلة

الملخص

بالمقارنة مع التقدم الكبير الذي حققته نماذج المحولات البصرية الضخمة (ViTs) في السنوات الأخيرة، لا تزال النماذج الضخمة المستندة إلى الشبكات العصبية التلافيفية (CNNs) في مرحلة مبكرة من التطور. يقدم هذا العمل نموذجًا أساسيًا جديدًا قائمًا على CNN، يُسمى InternImage، والذي يمكنه الاستفادة من زيادة عدد المعاملات وحجم البيانات التدريبية مثل نماذج ViTs. على عكس الشبكات التلافيفية الحديثة التي تركز على استخدام نوى كثيفة كبيرة، يعتمد InternImage على التحويل القابل للتشويه (deformable convolution) كعمليّة أساسية، مما يضمن للنموذج حقل استقبال فعّال واسع يلبي متطلبات المهام السفلى مثل الكشف والتقسيم، بالإضافة إلى القدرة على تجميع المساحات بشكل تكيفي بناءً على معلومات الإدخال والمهام. وبذلك، يقلل InternImage من التحيّز الاستنتاجي الصارم الخاص بالشبكات التلافيفية التقليدية، ويتيح تعلّم أنماط أقوى وأكثر متانة باستخدام معاملات ضخمة وبيانات ضخمة، تمامًا كما تفعل نماذج ViTs. وقد تم إثبات فعالية النموذج على معايير صعبة تشمل ImageNet وCOCO وADE20K. ومن المهم الإشارة إلى أن نموذج InternImage-H حقق رقماً قياسياً جديداً بـ 65.4 mAP على مجموعة COCO test-dev و62.9 mIoU على ADE20K، متفوّقاً على أحدث الشبكات التلافيفية والمحولات البصرية. وسيتم إصدار الشفرة المصدرية على الرابط: https://github.com/OpenGVLab/InternImage.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp