
الملخص
أحدث التطورات في النماذج التوليدية متعددة الوسائط قد دفعت بتحسن كبير في تحرير الصور. ومع ذلك، ما زالت النماذج التوليدية الحالية تواجه صعوبات في التعامل مع مهام تحرير الصور المتنوعة والمعقدة التي تتطلب استدلالًا ضمنيًا، مما يبرز الحاجة إلى إنشاء معيار شامل لتقييم أدائها بشكل منهجي في سيناريوهات استدلال متنوعة. تركز المعايير الحالية بشكل رئيسي على تحويل الخصائص الخاصة بجسم واحد في سياقات واقعية، وهي فعالة إلى حد ما، لكنها تواجه تحديين رئيسيين: (1) تتجاهل إلى حد كبير التفاعلات بين كائنات متعددة، وكذلك السيناريوهات المتعلقة بعالم الألعاب التي تتضمن قواعد محددة من قبل البشر، وهي سياقات شائعة في التطبيقات الواقعية؛ (2) تعتمد فقط على المراجع النصية لتقييم الصور المولدة، مما قد يؤدي إلى أحكام خاطئة منهجية، خاصة في السيناريوهات المعقدة التي تتطلب استدلالًا متقدمًا. ولحل هذه المشكلة، نقترح في هذا العمل معيار UniREditBench، وهو معيار موحد لتقييم تحرير الصور القائم على الاستدلال. يضم المعيار 2700 عينة مُختارة بعناية، تغطي سيناريوهات واقعية وعالم ألعاب عبر 8 أبعاد رئيسية و18 بعدًا فرعيًا. ولتحسين موثوقية التقييم، نُقدّم منهجية تقييم متعددة الوسائط باستخدام مرجعين، حيث نوفر لكل عينة مرجعًا نصيًا ومرجعًا صوريًا حقيقيًا (ground-truth). علاوة على ذلك، صممنا نموذجًا آليًا لتصنيع البيانات عبر سيناريوهات متعددة، وقمنا ببناء مجموعة بيانات اصطناعية كبيرة بعنوان UniREdit-Data-100K، تتميز بتعليقات عالية الجودة على سلسلة التفكير (Chain-of-Thought, CoT). قمنا بتعزيز نموذج Bagel على هذه المجموعة، وطورنا نموذج UniREdit-Bagel، الذي أظهر تحسينات كبيرة في كل من البيئات المُستهدفة (in-domain) والبيئات غير المُستهدفة (out-of-distribution). من خلال تقييم معمق لنموذجين مفتوحي المصدر ونماذج مغلقة المصدر لتحرير الصور، كشفنا عن نقاط القوة والضعف لكل منهما في جوانب متعددة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.