ال Transformers ذاتية الإشراف لاكتشاف الأشياء بدون إشراف باستخدامNormalized Cut

تم إثبات أن النماذج المتحولة (Transformers) التي تم تدريبها باستخدام التعلم الذاتي المشرف على ذاته مع خسارة التقطير الذاتي (DINO) قادرة على إنتاج خرائط الانتباه التي تبرز الأشياء الرئيسية في المقدمة. في هذا البحث، نوضح نهجًا يستند إلى الرسم البياني يستخدم ميزات النموذج المتحول الذي تم تدريبه بشكل ذاتي لاكتشاف شيء من صورة. يتم النظر في الرموز البصرية كعقد في رسم بياني موزون، حيث تمثل الحواف درجة الارتباط استنادًا إلى تشابه الرموز. يمكن بعد ذلك فصل الأشياء الرئيسية باستخدام قطع الرسم البياني المُعَدَّل لتصنيف المناطق ذات التشابه الذاتي. نحل مشكلة القطع البياني باستخدام التجميع الطيفي مع تحليل القيمة الذاتية العام ونظهر أن ثاني أصغر متجه قيمة ذاتية يوفر حلًّا للقطع، حيث يشير قيمته المطلقة إلى احتمالية انتماء رمز ما إلى شيء رئيسي. رغم بساطته، فإن هذا النهج يعزز بشكل كبير أداء اكتشاف الأشياء دون إشراف: فقد حققنا تحسينًا بنسبة 6.9%، 8.1%، و8.1% على التوالي في مجموعات بيانات VOC07، VOC12، وCOCO20K مقارنة بأحدث التقنيات الرائدة LOST. يمكن تعزيز الأداء أكثر بإضافة كاشف غير محدد للصنف (CAD) كمرحلة ثانية. يمكن توسيع طريقة المقترحة بسهولة لتشمل اكتشاف البارزة دون إشراف واكتشاف الأشياء تحت الإشراف الخفيف. بالنسبة لاكتشاف البارزة دون إشراف، حققنا تحسنًا في تقاطع فوق الاتحاد (IoU) بنسبة 4.9%,5.2%,12.9% على مجموعات البيانات ECSSD,DUTS,DUT-OMRON على التوالي مقارنة بأحدث التقنيات الرائدة السابقة. فيما يتعلق باكتشاف الأشياء تحت الإشراف الخفيف، حققنا أداءً تنافسيًّا على مجموعة بيانات CUB وImageNet.请注意,数字和百分比在阿拉伯语中通常会使用阿拉伯数字表示,因此我保留了原文中的数字形式。如果需要将这些数字转换为阿拉伯文数字(如٤.٩%),请告知我。