HyperAIHyperAI
منذ 18 أيام

K-Net: نحو التجزئة الموحدة للصورة

Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
K-Net: نحو التجزئة الموحدة للصورة
الملخص

تم التعامل مع التجزئة الدلالية، والتجزئة الحسيّة، والتجزئة الشاملة باستخدام إطارات عمل مختلفة ومخصصة، رغم الصلات الأساسية بينها. تقدم هذه الورقة إطارًا موحدًا وبسيطًا وفعالًا لهذه المهام المتشابهة جوهريًا. يُسمّى الإطار "K-Net"، ويتسم بتجزئة الكيانات والفئات الدلالية بشكل متسق من خلال مجموعة من النوى القابلة للتعلم، حيث يُعَيّن كل نواة لإنجاز قناع لكيان محتمل أو فئة من الفئات غير المُنتجة (stuff). وللتغلب على الصعوبات الناتجة عن التمييز بين الكيانات المختلفة، نقترح استراتيجية تحديث النوى التي تُمكّن كل نواة من أن تكون ديناميكية ومشروطة على مجموعتها ذات المعنى في الصورة المدخلة. يمكن تدريب K-Net بطريقة منتهية إلى منتهية باستخدام التوافق الثنائي، وتدريبه واستنتاجه يكونان طبيعيًا دون الحاجة إلى إزالة الصناديق (NMS) أو الصناديق (box-free). وبلا إضافات مُضافة، يتفوّق K-Net على جميع النتائج السابقة المنشورة من النماذج الأحادية الأفضل في مجال التجزئة الشاملة على مجموعة بيانات MS COCO (مقطع test-dev) وتجزئة الدلالة على ADE20K (مقطع val) بـ 55.2% PQ و54.3% mIoU على التوالي. كما أن أداء K-Net في تجزئة الكيانات يوازي أداء Cascade Mask R-CNN على MS COCO، مع سرعة استنتاج تتراوح بين 60% إلى 90% أسرع. سيتم إصدار الكود والنماذج على الرابط: https://github.com/ZwwWayne/K-Net/.

K-Net: نحو التجزئة الموحدة للصورة | أحدث الأوراق البحثية | HyperAI