HyperAIHyperAI
منذ 4 أيام

MultiEdit: تطوير التحرير القائم على التعليم في الصور على مهام متنوعة وصعبة

Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, et al
MultiEdit: تطوير التحرير القائم على التعليم في الصور على مهام متنوعة وصعبة
الملخص

تواجه الطرق الحالية لتحرير الصور القائمة على التعليمات (IBIE) صعوبات في مهام التحرير الصعبة، نظرًا لقيود أنواع التحرير وعدد العينات في المجموعات الحالية. علاوةً على ذلك، تُحتوي طرق بناء المجموعات التقليدية غالبًا على أزواج صورة-وصف مُشوشة، مما قد يؤدي إلى تحيّزات وتقييد قدرات النماذج في السيناريوهات المعقدة للتحرير. ولحل هذه القيود، نقدّم "مُتعدّد التحرير" (MultiEdit)، وهي مجموعة بيانات شاملة تضم أكثر من 107 ألف عينة عالية الجودة للتحرير الصوتي. وتشمل مجموعة البيانات ستة مهام تحرير صعبة، من خلال مجموعات متنوعة تضم 18 نوعًا من التحرير غير المتعلق بنقل النمط، و38 عملية نقل نمط، تغطي طيفًا واسعًا من التحولات النمطية المعقدة إلى العمليات الدلالية المعقدة مثل تحرير الصور باستخدام الإشارة إلى الأشخاص، وتحرير النصوص داخل الصورة. ونستخدم نموذجًا جديدًا لبناء المجموعة يعتمد على نموذجين متعددي الوسائط من نماذج اللغة الكبيرة (MLLMs)، الأول لتحديد تعليمات تحرير مُتعدّدة التكيف البصري، والثاني لإنتاج صور معدلة عالية الدقة. وتُظهر التجارب الواسعة أن تدريب النماذج الأساسية المفتوحة المصدر باستخدام مجموعة "MultiEdit-Train" يُحسّن بشكل ملحوظ أداء النماذج في المهام المعقدة للتحرير ضمن معيار "MultiEdit-Test" المقترح، مع الحفاظ الفعّال على قدراتها في المعيار القياسي للتحرير. ونعتقد أن "MultiEdit" يُعدّ موردًا قيّمًا لدفع عجلة البحث نحو تطوير قدرات أكثر تنوعًا وصعوبة في تحرير الصور القائمة على التعليمات. يمكن الوصول إلى مجموعتنا عبر الرابط التالي: هذا الرابط.