HyperAIHyperAI

Command Palette

Search for a command to run...

ترجمة الصور إلى صور بدون تدريب مسبق

Gaurav Parmar Krishna Kumar Singh Richard Zhang Yijun Li Jingwan Lu Jun-Yan Zhu

الملخص

أظهرت نماذج التوليد النصية إلى الصورية على نطاق واسع قدرتها المثيرة للإعجاب على توليد صور متنوعة ذات جودة عالية. ومع ذلك، لا يزال من الصعب تطبيق هذه النماذج مباشرة لتحرير الصور الحقيقية لأسبابين رئيسيتين. أولاً، من الصعب على المستخدمين وضع دليل نصي مثالي يصف بدقة كل التفاصيل البصرية في الصورة المدخلة. ثانياً، بينما يمكن للنماذج الموجودة إدخال تغييرات مرغوبة في بعض المناطق، فإنها غالباً ما تغير بشكل كبير محتوى الصورة المدخلة وتضيف تغييرات غير متوقعة في المناطق غير المرغوب فيها.في هذا البحث، نقترح طريقة الترجمة من صورة إلى صورة "بيكس تو بكس زيرو" (pix2pix-zero) التي يمكنها الحفاظ على محتوى الصورة الأصلية دون الحاجة إلى تحفيز يدوي. أولاً، نكتشف تلقائياً اتجاهات التحرير التي تعكس التعديلات المرغوبة في فضاء تمثيل النص. لحفظ بنية المحتوى العامة بعد التحرير، نقترح أيضاً إرشاد الانتباه المتقاطع (cross-attention guidance)، الذي يهدف إلى الحفاظ على خرائط الانتباه المتقاطع للصورة المدخلة طوال عملية الانتشار (diffusion). بالإضافة إلى ذلك، لا تحتاج طريقتنا إلى تدريب إضافي لهذه التعديلات ويمكنها استخدام النموذج السابق التدريب الموجود مباشرة. أجرينا العديد من التجارب الواسعة وأظهرنا أن طريقتنا تتفوق على الأعمال الموجودة والمتزامنة لكل من تحرير الصور الحقيقية والمصنعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp