HyperAIHyperAI
منذ 2 أشهر

ال inversión المباشرة: تعزيز التحرير القائم على الانتشار بثلاثة أسطر من الكود

Xuan Ju; Ailing Zeng; Yuxuan Bian; Shaoteng Liu; Qiang Xu
ال inversión المباشرة: تعزيز التحرير القائم على الانتشار بثلاثة أسطر من الكود
الملخص

قد غيرت نماذج التفتيح الموجهة بالنص (text-guided diffusion models) ميداني إنشاء الصور وتحريرها، حيث تقدم واقعية استثنائية ومتنوعة. وبشكل خاص، في سياق التحرير القائم على التفتيح، حيث يتم تحرير صورة المصدر وفقًا لدعاية الهدف (target prompt)، يبدأ العملية باكتساب متجه ضمني ضوضائي يتوافق مع صورة المصدر عبر نموذج التفتيح. ثم يتم إدخال هذا المتجه إلى فرعين منفصلين للتفتيح للمصدر والهدف للتحرير. يؤثر دقة عملية العكس هذه بشكل كبير على النتيجة النهائية للتحرير، مما يؤثر على حفظ المحتوى الأساسي لصورة المصدر وعلى دقة التعديل وفقًا لدعاية الهدف. كانت التقنيات السابقة للعكس تستهدف إيجاد حل موحد في كل من فرعي التفتيح للمصدر والهدف. ومع ذلك، كشفت تحليلاتنا النظرية والتجريبية أن فصل هذين الفرعين يؤدي إلى فصل واضح للمسؤوليات فيما يتعلق بحفظ المحتوى الأساسي وضمان دقة التعديل. بناءً على هذا الفهم، نقدم "العكس المباشر" (Direct Inversion)، تقنية جديدة تحقق أداءً مثاليًا لكلا الفرعين باستخدام ثلاث خطوط فقط من الكود. لتقييم أداء تحرير الصور، نقدم PIE-Bench، وهو مقاييس تحرير يضم 700 صورة تعرض مشاهد وأنواع تحرير متنوعة، مصحوبة ب Annotations متعددة ومعايير تقييم شاملة. بالمقارنة مع تقنيات العكس المحسنة الأكثر حداثة، فإن حلنا ليس فقط يحقق أداءً أفضل في 8 طرق مختلفة للتحرير ولكن أيضًا يصل إلى زيادة السرعة بمقدار عامل قريب من العشرة.

ال inversión المباشرة: تعزيز التحرير القائم على الانتشار بثلاثة أسطر من الكود | أحدث الأوراق البحثية | HyperAI