HyperAIHyperAI
منذ 2 أشهر

PosSAM: تقسيم البانوراما لكلمات مفتوحة

Vibashan VS; Shubhankar Borse; Hyojin Park; Debasmit Das; Vishal Patel; Munawar Hayat; Fatih Porikli
PosSAM: تقسيم البانوراما لكلمات مفتوحة
الملخص

في هذا البحث، نقدم نموذجًا للتقسيم البانورامي المفتوح الذي يجمع بفعالية قوة نموذج تقسيم أي شيء (SAM) مع نموذج الرؤية واللغة CLIP في إطار شامل من البداية إلى النهاية. بينما يتميز SAM بقدرته على إنشاء أقنعة ذات وعي مكاني، فإن محركه التحليلي يعاني من صعوبة في التعرف على معلومات فئات الأشياء ويميل إلى التقسيم الزائد دون توجيه إضافي. تتعامل الأساليب الحالية مع هذه القصور من خلال استخدام تقنيات متعددة المراحل واستخدام نماذج منفصلة لإنتاج دوافع ذات وعي بالفئات، مثل الصناديق الحدودية أو الأقنعة الفاصلة. أما الطريقة المقترحة لدينا، PosSAM، فهي نموذج شامل من البداية إلى النهاية يستفيد من الخصائص الغنية بالموقع في SAM لإنتاج أقنعة ذات وعي بالأمثلة ويستغل خصائص CLIP التمييزية معنىً لتصنيف الأمثلة بكفاءة. بشكل خاص، نعالج قصور SAM ونقترح وحدة جمع تمييز محلي جديد (LDP) تستفيد من خصائص SAM غير المرتبطة بالفئات وخواص CLIP الواعية بالفئات للتصنيف المفتوح غير المتحيز. بالإضافة إلى ذلك، نقدم خوارزمية الجمع الاختياري الواعي بالأقنعة (MASE) التي تعزز بشكل متكيف جودة الأقنعة المنتجة وتزيد من أداء التصنيف المفتوح أثناء الاستدلال لكل صورة. أجرينا تجارب واسعة لبيان خصائص التعميم القوية لطرقنا عبر عدة مجموعات بيانات، مما حقق أفضل الأداء حتى الآن مع تحسينات كبيرة على طرق التقسيم البانورامي المفتوح الأكثر تقدمًا. في كلتا الإعداديتين COCO إلى ADE20K وADE20K إلى COCO، يتفوق PosSAM على الطرق السابقة الأكثر تقدمًا بمargins كبيرة، 2.4 PQ و4.6 PQ على التوالي. موقع المشروع: https://vibashan.github.io/possam-web/.

PosSAM: تقسيم البانوراما لكلمات مفتوحة | أحدث الأوراق البحثية | HyperAI