قصة ميزيتين: التوزيع المستقر يكمل DINO للمراسلة الدلالية بدون تعلم مسبق

قد أحرزت نماذج التوسع من النص إلى الصورة تقدمًا كبيرًا في إنشاء وتحرير صور عالية الجودة. نتيجة لذلك، تم استكشاف العديد من الطرق لقدرة ميزات نموذج التوسع على فهم ومعالجة الصور الفردية لأغراض لاحقة مثل التصنيف والتقسيم الدلالي وإعادة الأسلوب. ومع ذلك، فإن المعرفة حول ما تكشفه هذه الميزات عبر صور وأجسام متعددة ومختلفة لا تزال قليلة جدًا. في هذا العمل، نستغل ميزات Stable Diffusion (SD) للتوافق الدلالي والكثيف، ونكتشف أن مع معالجة بسيطة بعدية، يمكن لميزات SD أن تؤدي بشكل كمي مشابه للتمثيلات الرائدة عالميًا. بشكل مثير للاهتمام، يكشف التحليل الكيفي أن ميزات SD لها خصائص مختلفة تمامًا عن ميزات التعلم بالتمثيل الموجودة حاليًا، مثل DINOv2 الذي تم إطلاقه مؤخرًا: بينما توفر DINOv2 مطابقات نادرة ولكن دقيقة، توفر ميزات SD معلومات مكانية عالية الجودة ولكنها قد تكون غير دقيقة أحيانًا في المطابقات الدلالية. نظهر أن دمجًا بسيطًا لهذه الميزتين يعمل بشكل جيد بشكل غير متوقع، وأن تقييم الصفر على أقرب الجيران باستخدام هذه الميزات المتصلة يوفر زيادة كبيرة في الأداء على طرق الرائدة عالميًا في مجموعة بيانات الاختبار القياسية مثل SPair-71k وPF-Pascal وTSS. كما نوضح أن هذه المطابقات يمكن أن تمكّن من تطبيقات مثيرة للاهتمام مثل تبديل الحالات في صورتين.