
الملخص
أصبحت مهارة تعديل الصور بناءً على التعليمات مجالًا بارزًا في الأبحاث، حيث تحققت جودة جمالية عالية بفضل نماذج الأساس لولادة الصور، مما جعل القدرة على اتباع التعليمات التحدي الرئيسي. تعتمد الطرق الحالية على التعلم المراقب أو التعلم المعزز لتحسين الالتزام بالتعليمات، لكن معدلات النجاح في الدورة الواحدة تظل محدودة بسبب الطبيعة العشوائية المتأصلة وعدم وجود عملية تفكير متعمقة. في هذا العمل، نقترح إطارًا للتعديل المتعمق يُمكّن النموذج من "التفكير أثناء التعديل"، حيث يُحاكي الدورة الإدراكية البشرية من خلال تنفيذ دورة "التفكير أثناء التعديل" بشكل تكراري: تقييم النتائج وتحسين التعليمات، ثم إعادة توليد الصورة حتى تصل إلى مستوى رضا. بشكل خاص، نُدرّب نموذجًا واحدًا من النماذج متعددة اللغات والصور (MLLM)، يُسمى EditThinker، ليكون المحرك التفكيري لهذا الإطار، والذي يُنتج بشكل مشترك درجة التقييم، وعملية التفكير، والتعليمات المُحسَّنة. نستخدم التعلم المعزز لمحاذاة عملية التفكير الخاصة بـ EditThinker مع عملية التعديل، مما يؤدي إلى تحسينات أكثر دقة في التعليمات. أظهرت التجارب الواسعة على أربع معايير أن منهجنا يُحسّن بشكل كبير من قدرة أي نموذج تعديل صور على اتباع التعليمات، وبمقدار كبير. وسوف نُطلق إطار بناء البيانات، وال datasets، والأنماط لصالح المجتمع العلمي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.