HyperAIHyperAI

Command Palette

Search for a command to run...

التوافق الدلالي غير المراقب باستخدام Stable Diffusion

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

الملخص

أصبحت نماذج التوليد الصوتي-الصوري من النوع التبادلي الآن قادرة على إنتاج صور تُعدّ في كثير من الأحيان غير قابلة للتمييز عن الصور الحقيقية. ولإنتاج هذه الصور، يجب على هذه النماذج فهم الدلالة المعجمية للأجسام التي يُطلب منها توليدها. في هذه الدراسة، نُظهر أنه دون أي تدريب، يمكن استغلال هذه المعرفة المعجمية داخل نماذج التبادل للعثور على تطابقات معجمية—أي مواقع في صور متعددة تمتلك نفس المعنى المعجمي. وبشكل خاص، وبمجرد إعطاء صورة معينة، نُحسّن تضمينات النص (prompt embeddings) الخاصة بهذه النماذج بحيث تُحقق أعلى مستوى من الانتباه على مناطق الاهتمام. وتكشف هذه التضمينات المُحسَّنة عن معلومات معجمية حول الموقع، والتي يمكن بعد ذلك نقلها إلى صورة أخرى. وبهذا نحصل على نتائج تُقاس بالمستوى القياسي القوي المُتفوّق في مجموعة بيانات PF-Willow، ونُفوق بشكل ملحوظ (بمعدل 20.9% نسبيًا) أي طريقة ضعيفة أو غير مراقبة موجودة حتى الآن على مجموعات بيانات PF-Willow وCUB-200 وSPair-71k.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp