DatUS^2: تقسيم معاني غير مشرف باستخدام بيانات ومتحول رؤية ذاتي المراقبة مسبق التدريب

تستمر اقتراحات العديد من مخططات التدريب الذاتي المشرف عليها بنفسها في الظهور، مما يقربنا خطوة واحدة نحو تطوير نموذج أساسي شامل. وفي هذا السياق، يتم الاعتراف بالمهام النزولية غير المشرفة كواحدة من طرق التقييم لتأكيد جودة الخصائص البصرية التي تم تعلمها بواسطة مخطط التدريب الذاتي. ومع ذلك، لم يتم استكشاف التجزئة الدلالية الكثيفة غير المشرفة كمهمة نزولية، والتي يمكن أن تستفيد وتقيم جودة المعلومات الدلالية المقدمة في تمثيلات الخصائص على مستوى القطعة أثناء التدريب الذاتي للمحول البصري (Vision Transformer). لذلك، تقترح هذه الورقة نهجًا بياناتيًا جديدًا للتجزئة الدلالية غير المشرفة (DatUS^2) كمهمة نزولية. يولد DatUS^2 أقنعة تجزئة وهمية متسقة دلاليًا وكثيفة لمجموعة الصور غير المصنفة دون استخدام أي بيانات سابقة بصرية أو بيانات متزامنة. نقارن هذه الأقنعة الوهمية للتجزئة مع أقنعة الحقيقة الأرضية لتقييم مخططات التدريب الذاتي الحديثة في تعلم الخصائص الدلالية المشتركة على مستوى القطعة والخصائص الدلالية المميزة على مستوى القطع. وأخيرًا، نقيم أفضل التقنيات الحالية للتدريب الذاتي باستخدام مهمتنا النزولية المقترحة، أي DatUS^2. كما حققت أفضل إصدار من DatUS^2 أداءً أفضل من الطريقة الرائدة الحالية في مهمة التجزئة الدلالية الكثيفة غير المشرفة بنسبة 15.02% لـ MiOU و 21.47% لدقة البكسل على مجموعة بيانات SUIM. كما حققت أيضًا مستوى دقيقًا تنافسيًا لمجموعة بيانات كبيرة ومعقدة مثل مجموعة بيانات COCO.