Command Palette
Search for a command to run...
MOSAIC: توليد شخصي متعدد الأشخاص من خلال التوافق والفصل المستندين إلى التقابل
Dong She Siming Fu Mushui Liu Qiaoqiao Jin Hualiang Wang Mu Liu Jidong Jiang

الملخص
تُشكّل المُولَّدات المخصصة متعددة المواضيع تحديات فريدة في الحفاظ على وضوح الهوية واتساق المعنى عند توليد صور شرطية تعتمد على عدة موضوعات مرجعية. غالبًا ما تعاني الطرق الحالية من مزج الهوية وتسرب السمات الناتج عن نمذجة غير كافية لكيفية تفاعل المواضيع المختلفة داخل فضاءات التمثيل المشتركة. نقدّم "MOSAIC"، إطارًا متمحورًا حول التمثيل، يعيد تقييم توليد الصور متعددة المواضيع من خلال تطابق دلالي صريح وفصل مميز للسمات بشكل متعامد. إن رؤيتنا الأساسية تكمن في أن توليد الصور متعددة المواضيع يتطلب تطابقًا دلاليًا دقيقًا على مستوى التمثيل – أي معرفة بالضبط أي مناطق في الصورة المولَّدة ينبغي أن تُركّز على أي أجزاء من كل موضوع مرجعي. ولتمكين ذلك، نقدّم مجموعة البيانات "SemAlign-MS"، وهي مجموعة مُعلّمة بدقة تُقدّم تطابقًا دلاليًا دقيقًا بين عدة موضوعات مرجعية والصورة المستهدفة، وهي معلومات لم تكن متوفرة سابقًا في هذا المجال. وبنيانًا على هذه الأساس، نقترح خسارة التوجيه الدلالي التطابقي، التي تفرض تطابقًا دقيقًا نقطة بنقطة على المستوى الدلالي، لضمان اتساق عالٍ من كل موضوع مرجعي إلى المناطق المخصصة له. علاوةً على ذلك، نطوّر خسارة الفصل متعددة المراجع، التي تدفع المواضيع المختلفة إلى فضاءات فرعية للانتباه المتعامدة، مما يمنع التداخل في السمات مع الحفاظ على الخصائص الفردية لكل هوية. تُظهر التجارب الواسعة أن MOSAIC تحقق أداءً متفوّقًا على مستوى الحد الأقصى في عدة معايير معيارية. وبشكل ملحوظ، بينما تميل الطرق الحالية إلى التدهور عند تجاوز ثلاث موضوعات مرجعية، تُحافظ MOSAIC على وضوح عالٍ حتى مع أربع موضوعات مرجعية أو أكثر، مما يفتح آفاقًا جديدة لتطبيقات التوليد المعقدة متعددة المواضيع.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.