HyperAIHyperAI
منذ 2 أشهر

InstanceDiffusion: التحكم على مستوى المثيلات في توليد الصور

Wang, Xudong ; Darrell, Trevor ; Rambhatla, Sai Saketh ; Girdhar, Rohit ; Misra, Ishan
InstanceDiffusion: التحكم على مستوى المثيلات في توليد الصور
الملخص

تُنتِج نماذج التوسيع من النص إلى الصورة صورًا ذات جودة عالية ولكنها لا تقدم السيطرة على الحالات الفردية في الصورة. نقدم InstanceDiffusion (توسيع الحالة) الذي يضيف سيطرة دقيقة على مستوى الحالة إلى نماذج التوسيع من النص إلى الصورة. يدعم InstanceDiffusion شروط لغوية حرة لكل حالة ويوفر طرقًا مرنة لتحديد مواقع الحالات مثل نقاط بسيطة، رسومات بالقلم، مربعات الحدود أو أقنعة تقسيم الحالات المعقدة، بالإضافة إلى مجموعاتها. نقترح ثلاثة تغييرات رئيسية على نماذج النص إلى الصورة التي تمكن من السيطرة الدقيقة على مستوى الحالة. يمكّن كتلة UniFusion (الاندماج الموحد) لدينا الشروط على مستوى الحالة لنماذج النص إلى الصورة، بينما يحسن كتلة ScaleU (توسيع المقياس) دقة الصورة، ويحسّن مُؤَسِّسُنا للحالات المتعددة Multi-instance Sampler (مؤثر الحالات المتعددة) الإنتاج للحالات المتعددة. يتفوق InstanceDiffusion بشكل كبير على النماذج المتخصصة الأكثر تقدمًا لكل شرط موقع. وبشكل لافت للنظر، على مجموعة بيانات COCO، نتفوق على أفضل ما سبق بنسبة 20.4% في AP$_{50}^\text{box}$ للمدخلات المربعة، وبنسبة 25.4% في IoU للأقنعة.请注意,阿拉伯语中的术语 "UniFusion" 和 "ScaleU" 被翻译为 "الاندماج الموحد" 和 "توسيع المقياس" 分别,但这些术语在括号中也保留了英文原名以确保信息的完整性。同时,COCO 数据集和 AP$_{50}^\text{box}$、IoU 等指标也被直接引用并解释。