HyperAIHyperAI

Command Palette

Search for a command to run...

MultiEdit: تطوير التحرير القائم على التعليم في الصور على مهام متنوعة وصعبة

Mingsong Li Lin Liu Hongjun Wang Haoxing Chen et al

الملخص

تواجه الطرق الحالية لتحرير الصور القائمة على التعليمات (IBIE) صعوبات في مهام التحرير الصعبة، نظرًا لقيود أنواع التحرير وعدد العينات في المجموعات الحالية. علاوةً على ذلك، تُحتوي طرق بناء المجموعات التقليدية غالبًا على أزواج صورة-وصف مُشوشة، مما قد يؤدي إلى تحيّزات وتقييد قدرات النماذج في السيناريوهات المعقدة للتحرير. ولحل هذه القيود، نقدّم "مُتعدّد التحرير" (MultiEdit)، وهي مجموعة بيانات شاملة تضم أكثر من 107 ألف عينة عالية الجودة للتحرير الصوتي. وتشمل مجموعة البيانات ستة مهام تحرير صعبة، من خلال مجموعات متنوعة تضم 18 نوعًا من التحرير غير المتعلق بنقل النمط، و38 عملية نقل نمط، تغطي طيفًا واسعًا من التحولات النمطية المعقدة إلى العمليات الدلالية المعقدة مثل تحرير الصور باستخدام الإشارة إلى الأشخاص، وتحرير النصوص داخل الصورة. ونستخدم نموذجًا جديدًا لبناء المجموعة يعتمد على نموذجين متعددي الوسائط من نماذج اللغة الكبيرة (MLLMs)، الأول لتحديد تعليمات تحرير مُتعدّدة التكيف البصري، والثاني لإنتاج صور معدلة عالية الدقة. وتُظهر التجارب الواسعة أن تدريب النماذج الأساسية المفتوحة المصدر باستخدام مجموعة "MultiEdit-Train" يُحسّن بشكل ملحوظ أداء النماذج في المهام المعقدة للتحرير ضمن معيار "MultiEdit-Test" المقترح، مع الحفاظ الفعّال على قدراتها في المعيار القياسي للتحرير. ونعتقد أن "MultiEdit" يُعدّ موردًا قيّمًا لدفع عجلة البحث نحو تطوير قدرات أكثر تنوعًا وصعوبة في تحرير الصور القائمة على التعليمات. يمكن الوصول إلى مجموعتنا عبر الرابط التالي: هذا الرابط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp