Command Palette
Search for a command to run...
UMO: توسيع اتساق الهوية المتعددة للتخصيص الصوري من خلال مكافأة المطابقة
UMO: توسيع اتساق الهوية المتعددة للتخصيص الصوري من خلال مكافأة المطابقة
Yufeng Cheng Wenxu Wu Shaojin Wu Mengqi Huang Fei Ding Qian He
الملخص
تُظهر التطورات الحديثة في تخصيص الصور إمكانيات تطبيقية واسعة بفضل قدرات التخصيص الأقوى. ومع ذلك، وبسبب حساسيتنا البشرية الكبيرة تجاه الوجوه، يظل هناك تحدي كبير يتمثل في الحفاظ على هوية ثابتة مع تجنب الخلط بين الهويات عند استخدام صور مرجعية متعددة، مما يحد من قابلية نماذج التخصيص على التوسع في الهوية. ولحل هذه المشكلة، نقدّم UMO، وهي إطار موحد لتحسين الهويات المتعددة، مصمم لضمان الحفاظ على الهوية بدقة عالية وتقليل التباس الهوية مع إمكانية التوسع. من خلال نموذج "مطابقة متعددة إلى متعددة"، يعيد UMO صياغة إنشاء الهويات المتعددة كمشكلة تحسين تخصيص عالمي، ويُطلق القدرة على الحفاظ على اتساق الهويات المتعددة في الطرق الحالية لتخصيص الصور، وذلك باستخدام التعلم المُعزّز على النماذج التفريغية (diffusion models). ولتسهيل تدريب UMO، قمنا بتطوير مجموعة بيانات تخصيص قابلة للتوسع تحتوي على صور مرجعية متعددة، مكونة من أجزاء مُصنّعة وأجزاء حقيقية. علاوةً على ذلك، اقترحنا معيارًا جديدًا لقياس التباس الهوية. وأظهرت التجارب الواسعة أن UMO لا يحسن من اتساق الهوية بشكل ملحوظ فحسب، بل يقلل أيضًا من التباس الهوية في عدة طرق لتخصيص الصور، مُحقِّقًا حالة متقدمة جديدة بين الطرق المفتوحة المصدر من حيث الحفاظ على الهوية. الكود والنماذج: https://github.com/bytedance/UMO