HyperAIHyperAI
منذ 2 أشهر

PatchRefineNet: تحسين التجزئة الثنائية من خلال دمج إشارات من التحويل الثنائي الأمثل على مستوى القطع

Savinay Nagendra; Chaopeng Shen; Daniel Kifer
PatchRefineNet: تحسين التجزئة الثنائية من خلال دمج إشارات من التحويل الثنائي الأمثل على مستوى القطع
الملخص

الغرض من نماذج التجزئة الثنائية هو تحديد البكسلات التي تنتمي إلى كائن مهتم (مثلاً، أي بكسلات في الصورة هي جزء من الطرق). تقوم هذه النماذج بتعيين درجة لوجيت (أي احتمالية) لكل بكسل، وتتم تحويل هذه الدرجات إلى توقعات عن طريق التحديد بالعتبة (أي كل بكسل له درجة لوجيت ≥ τ يُتوقع أنه جزء من الطريق). ومع ذلك، فإن ظاهرة شائعة في النماذج الحالية والسابقة الرائدة في مجال التجزئة هي التحيز المكاني -- في بعض الأقسام، تكون درجات اللوجيت متحيزة بشكل مستمر نحو الأعلى وفي أقسام أخرى تكون متحيزة بشكل مستمر نحو الأسفل. تؤدي هذه التحيزات إلى إيجابيات خاطئة وسالبيات خاطئة في التوقعات النهائية. في هذا البحث، نقترح شبكة PatchRefineNet (PRN)، وهي شبكة صغيرة تقع فوق نموذج تجزئة أساسي وتتعلم تصحيح تحيزاتها الخاصة بالأقسام. عبر مجموعة واسعة من النماذج الأساسية، يساعد PRN باستمرار على تحسين mIoU بنسبة 2-3٪. أحد الأفكار الرئيسية وراء PRN هو إضافة إشارة رقابة جديدة أثناء التدريب. بناءً على درجات اللوجيت المنتجة بواسطة نموذج التجزئة الأساسي، يتم إعطاء كل بكسل تصنيفًا زائفًا يتم الحصول عليه عن طريق تحديد العتبة الأمثل لدرجات اللوجيت في كل قسم صوري. دمج هذه التصنيفات الزائفة في دالة الخسارة لـ PRN يساعد على تصحيح التحيزات النظامية وخفض الإيجابيات والسالبيات الخاطئة. رغم أننا نركز بشكل أساسي على التجزئة الثنائية، فإننا نوضح أيضًا كيفية توسيع نطاق استخدام PRN لاكتشاف البارزة والتجزئة القليلة الطلقات. كما نناقش كيفية توسيع هذه الأفكار إلى التجزئة متعددة الفئات.

PatchRefineNet: تحسين التجزئة الثنائية من خلال دمج إشارات من التحويل الثنائي الأمثل على مستوى القطع | أحدث الأوراق البحثية | HyperAI