إيكو-4و: استغلال صور GPT-4o الاصطناعية لتحسين توليد الصور

في الآونة الأخيرة، لاقت نموذج GPT-4o اهتمامًا كبيرًا بفضل أدائه القوي في توليد الصور، غير أن النماذج المفتوحة المصدر ما زالت تتخلف عن هذا الأداء. وقد استعرضت عدة دراسات عملية استخلاص بيانات الصور من GPT-4o لتعزيز النماذج المفتوحة المصدر، ما أسفر عن تقدم ملحوظ. ومع ذلك، تبقى مسألة جوهرية مطروحة: بالنظر إلى أن مجموعات بيانات الصور الواقعية تشكل بالفعل مصدرًا طبيعيًا للبيانات عالية الجودة، فلماذا ينبغي لنا استخدام بيانات صور اصطناعية مولدة بواسطة GPT-4o؟ في هذا العمل، نحدد ميزتين رئيسيتين للصور الاصطناعية. أولاً، يمكنها مكملة السيناريوهات النادرة في مجموعات البيانات الواقعية، مثل الصور السريالية الخيالية أو توليد الصور المتعددة المراجع، والتي تظهر بكثرة في استفسارات المستخدمين. ثانيًا، توفر توجيهًا نقيًا وقابلًا للتحكم. فغالبًا ما تحتوي بيانات العالم الحقيقي على ضوضاء خلفية معقدة، بالإضافة إلى عدم التزامن الداخلي بين الوصف النصي ومحتوى الصورة، بينما توفر الصور الاصطناعية خلفيات نقية وسигنالات توجيهية ذات توزيع طولي (long-tailed)، ما يُسهّل تحقيق تطابق أكثر دقة بين النص والصورة. بالاعتماد على هذه الرؤى، نقدم مجموعة بيانات صور اصطناعية بحجم 180 ألف عنصر تُسمى Echo-4o-Image، تم إنشاؤها بواسطة GPT-4o، مستغلين قوة البيانات الصورية الاصطناعية لسد الثغرات في تغطية البيانات الواقعية. باستخدام هذه المجموعة، نُعدّل نموذج الأساس الموحّد للإدخال المتعدد الوسائط Bagel، مما ينتج نموذج Echo-4o. بالإضافة إلى ذلك، نقترح معيارين تقييم جديدين لتقديم تقييم أكثر دقة وتحديًا لقدرات توليد الصور: GenEval++، الذي يزيد من تعقيد التعليمات لتقليل ظاهرة تشبع الدرجات، وImagine-Bench، الذي يركّز على تقييم كلا الجوانب: فهم المحتوى الخيالي وتوليده. تُظهر نتائج Echo-4o أداءً قويًا في المعايير القياسية. علاوة على ذلك، عند تطبيق مجموعة Echo-4o-Image على نماذج أساسية أخرى (مثل OmniGen2 و BLIP3-o)، تُسجّل تحسينات متسقة في عدة مقاييس، مما يبرز قدرة عالية على التحويل (transferability) للمجموعة.