SimpleClick: التجزئة التفاعلية للصورة باستخدام نماذج التحويل البسيطة للرؤية

تهدف التجزئة التفاعلية للصور القائمة على النقر إلى استخلاص الكائنات باستخدام عدد محدود من النقرات من المستخدم. يُعد الهيكل الهرمي المُكوّن من الخلفية (backbone) المعمول به حاليًا في الأساليب الحديثة. في الآونة الأخيرة، ظهر نموذج الـ Vision Transformer (ViT) البسيط غير الهرمي كهيكل خلفية تنافسي للمهام المتعلقة بالتوقع الكثيف. ويتيح هذا التصميم للنموذج الأصلي ViT أن يصبح نموذجًا أساسيًا (foundation model) يمكن تحسينه (fine-tune) لمهام لاحقة دون الحاجة إلى إعادة تصميم هيكل هرمي خاص بالتدريب المسبق (pretraining). وعلى الرغم من أن هذا التصميم بسيط وثبتت فعاليته، فإنه لم يُستكشف بعد في مجال التجزئة التفاعلية للصور. ولسد هذه الفجوة، نقدم "SimpleClick"، أول طريقة للتجزئة التفاعلية تعتمد على هيكل خلفية بسيط. وبالاعتماد على هذا الهيكل البسيط، نُقدّم طبقة ترميز متماثلة للقطع (symmetric patch embedding layer) التي تُدمج النقرات في الهيكل الخلفي بتعديلات طفيفة جدًا على الهيكل نفسه. وباستخدام الهيكل الخلفي البسيط المُدرّب مسبقًا كمُفكّك تلقائي مُغطّى (masked autoencoder - MAE)، تحقق SimpleClick أداءً يُعدّ الأفضل على مستوى الحالة الحالية. وبشكل ملحوظ، حققت طريقة لدينا 4.15 NoC@90 على مجموعة SBD، محققة تحسنًا بنسبة 21.8% مقارنةً بأفضل نتيجة سابقة. وتم تقييم أداء الطريقة بشكل واسع على صور طبية، مما يُظهر قدرتها على التعميم. كما طوّرنا نموذجًا خلفيًا صغيرًا جدًا من نوع ViT لاستخدامه مع SimpleClick، وقمنا بتحليل حسابي مفصل، مما يُبرز ملاءمته كأداة عملية للتوثيق.