HyperAIHyperAI

Command Palette

Search for a command to run...

SimpleClick: التجزئة التفاعلية للصورة باستخدام نماذج التحويل البسيطة للرؤية

Qin Liu Zhenlin Xu Gedas Bertasius Marc Niethammer

الملخص

تهدف التجزئة التفاعلية للصور القائمة على النقر إلى استخلاص الكائنات باستخدام عدد محدود من النقرات من المستخدم. يُعد الهيكل الهرمي المُكوّن من الخلفية (backbone) المعمول به حاليًا في الأساليب الحديثة. في الآونة الأخيرة، ظهر نموذج الـ Vision Transformer (ViT) البسيط غير الهرمي كهيكل خلفية تنافسي للمهام المتعلقة بالتوقع الكثيف. ويتيح هذا التصميم للنموذج الأصلي ViT أن يصبح نموذجًا أساسيًا (foundation model) يمكن تحسينه (fine-tune) لمهام لاحقة دون الحاجة إلى إعادة تصميم هيكل هرمي خاص بالتدريب المسبق (pretraining). وعلى الرغم من أن هذا التصميم بسيط وثبتت فعاليته، فإنه لم يُستكشف بعد في مجال التجزئة التفاعلية للصور. ولسد هذه الفجوة، نقدم "SimpleClick"، أول طريقة للتجزئة التفاعلية تعتمد على هيكل خلفية بسيط. وبالاعتماد على هذا الهيكل البسيط، نُقدّم طبقة ترميز متماثلة للقطع (symmetric patch embedding layer) التي تُدمج النقرات في الهيكل الخلفي بتعديلات طفيفة جدًا على الهيكل نفسه. وباستخدام الهيكل الخلفي البسيط المُدرّب مسبقًا كمُفكّك تلقائي مُغطّى (masked autoencoder - MAE)، تحقق SimpleClick أداءً يُعدّ الأفضل على مستوى الحالة الحالية. وبشكل ملحوظ، حققت طريقة لدينا 4.15 NoC@90 على مجموعة SBD، محققة تحسنًا بنسبة 21.8% مقارنةً بأفضل نتيجة سابقة. وتم تقييم أداء الطريقة بشكل واسع على صور طبية، مما يُظهر قدرتها على التعميم. كما طوّرنا نموذجًا خلفيًا صغيرًا جدًا من نوع ViT لاستخدامه مع SimpleClick، وقمنا بتحليل حسابي مفصل، مما يُبرز ملاءمته كأداة عملية للتوثيق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp