HyperAIHyperAI
منذ 4 أيام

MultiRef: إنشاء صور قابلة للتحكم باستخدام مراجع بصرية متعددة

Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna
MultiRef: إنشاء صور قابلة للتحكم باستخدام مراجع بصرية متعددة
الملخص

يُعد المصممون البصريون من المبدعين الذين يستلهمون بشكل طبيعي من مراجع بصرية متعددة، حيث يجمعون بين عناصر متنوعة ومبادئ جمالية مختلفة لإنتاج أعمال فنية. ومع ذلك، تعتمد الأطر الحالية لتوليد الصور بشكل أساسي على مدخلات من مصدر واحد فقط — إما نصوصًا توجيهية أو صورًا مرجعية فردية. في هذا البحث، نركّز على مهمة توليد الصور القابلة للتحكم باستخدام مراجع بصرية متعددة. نقدم إطار تقييم مُحكَمًا يُسمى MultiRef-bench، يتضمن 990 عينة مُصَنَّعة و1000 عينة من العالم الحقيقي، ويتطلب دمج محتوى بصري من صور مرجعية متعددة. تُولَّد العينات المُصَنَّعة بشكل اصطناعي عبر محرك البيانات الخاص بنا RefBlend، الذي يضم 10 أنواعًا من المراجع و33 تركيبة مختلفة من المراجع. وباستخدام RefBlend، نُنشئ أيضًا مجموعة بيانات تُسمى MultiRef، تحتوي على 38 ألف صورة عالية الجودة، بهدف دعم الأبحاث المستقبلية. أظهرت تجاربنا على ثلاث نماذج متكاملة بين الصور والنصوص (مثل OmniGen وACE وShow-o) وستة إطارات عمل عضوية (مثل ChatDiT وLLM + SD) أن حتى الأنظمة الأكثر تطورًا تواجه صعوبة في التعامل مع الشروط المبنية على مراجع متعددة، حيث حقق أفضل نموذج (OmniGen) متوسط دقة قدرها 66.6% في العينات المُصَنَّعة و79.0% في الحالات الواقعية مقارنة بالإجابة المثالية. تُقدّم هذه النتائج مسارات قيمة لتطوير أدوات إبداعية أكثر مرونة وتشابهًا مع الطريقة البشرية، قادرة على دمج مصادر بصرية متعددة بكفاءة. تُتاح مجموعة البيانات للعامة عبر الرابط التالي: https://multiref.github.io/.