التوافق الدلالي غير المراقب باستخدام Stable Diffusion

أصبحت نماذج التوليد الصوتي-الصوري من النوع التبادلي الآن قادرة على إنتاج صور تُعدّ في كثير من الأحيان غير قابلة للتمييز عن الصور الحقيقية. ولإنتاج هذه الصور، يجب على هذه النماذج فهم الدلالة المعجمية للأجسام التي يُطلب منها توليدها. في هذه الدراسة، نُظهر أنه دون أي تدريب، يمكن استغلال هذه المعرفة المعجمية داخل نماذج التبادل للعثور على تطابقات معجمية—أي مواقع في صور متعددة تمتلك نفس المعنى المعجمي. وبشكل خاص، وبمجرد إعطاء صورة معينة، نُحسّن تضمينات النص (prompt embeddings) الخاصة بهذه النماذج بحيث تُحقق أعلى مستوى من الانتباه على مناطق الاهتمام. وتكشف هذه التضمينات المُحسَّنة عن معلومات معجمية حول الموقع، والتي يمكن بعد ذلك نقلها إلى صورة أخرى. وبهذا نحصل على نتائج تُقاس بالمستوى القياسي القوي المُتفوّق في مجموعة بيانات PF-Willow، ونُفوق بشكل ملحوظ (بمعدل 20.9% نسبيًا) أي طريقة ضعيفة أو غير مراقبة موجودة حتى الآن على مجموعات بيانات PF-Willow وCUB-200 وSPair-71k.