PiCIE: التجزئة الدلالية غير المراقبة باستخدام التماثل والتغير المتماثل في التجميع

نقدّم إطارًا جديدًا للتحليل الدلالي دون استخدام تسميات، من خلال تجميع البيانات. تُعدّ الطرق الجاهزة للتجميع محدودة ببيانات مُعدّة مسبقًا، ذات تسمية واحدة، ومركّزة حول الكائنات، في حين أن البيانات الواقعية تُشكّل غالبًا بيانات غير مُعدّة، ذات تسميات متعددة، ومركّزة حول المشهد. نوسع عملية التجميع من الصور إلى البكسلات، ونُخصّص عضوية منفصلة في التجميع لكل كائن مختلف داخل كل صورة. ومع ذلك، فإن الاعتماد فقط على تشابه الميزات على مستوى البكسل يفشل في تعلّم المفاهيم الدلالية عالية المستوى، ويُؤدّي إلى التعلّم الزائد (overfitting) على الملامح البصرية منخفضة المستوى. نُقدّم طريقة لدمج الاتساق الهندسي كـ"انحياز استنتاجي" (inductive bias) لتعلم التماثل (invariance) والتوازي (equivariance) تجاه التغيرات الضوئية والهندسية. وباستخدام هدف تعلّم جديد، يمكن لإطارنا تعلّم المفاهيم الدلالية عالية المستوى. تُعدّ طريقة "بي سي أي إي" (PiCIE)، أي التجميع على مستوى البكسل باستخدام التماثل والتوازي، أول طريقة قادرة على تجزئة كل من فئات الأشياء (things) والمواد (stuff) دون الحاجة إلى أي ضبط لمعاملات فائقة (hyperparameter tuning) أو معالجة مسبقة مخصصة للمهمة. وقد أظهرت طريقة PiCIE أداءً أفضل بكثير من الطرق القائمة على بيانات COCO وCityscapes، بزيادة قدرها +17.5% في الدقة (Acc.) و+4.5% في متوسط الدقة المعتمدة على التداخل (mIoU). كما نُظهر أن PiCIE تُقدّم تهيئة أفضل لتدريب التعلم المراقب القياسي. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/janghyuncho/PiCIE.