HyperAIHyperAI

مجموعة بيانات تحرير الصور متعددة الوسائط MultiEdit

التاريخ

منذ 4 أيام

المؤسسة

إدراج الذكاء الاصطناعي
جامعة هونغ كونغ
جامعة نيو ساوث ويلز

رابط النشر

huggingface.co

رابط الورقة البحثية

2509.14638

الترخيص

Apache 2.0

مساعدة التنزيل

MultiEdit عبارة عن مجموعة بيانات شاملة لتحرير الصور تعتمد على التعليمات وواسعة النطاق تم إصدارها في عام 2025 بواسطة inclusionAI بالتعاون مع جامعة نيو ساوث ويلز وجامعة هونج كونج.MultiEdit: تطوير تحرير الصور القائم على التعليمات في مهام متنوعة وصعبة"، والذي يهدف إلى تحسين قدرات النموذج في مهام تحرير الصور المعقدة والمتنوعة.

تحتوي مجموعة البيانات هذه على ما يقارب 107,000 عينة، تغطي ست مهام تحرير رئيسية و56 فئة فرعية من أنواع التحرير، بما في ذلك تحرير مرجع الكائن، وتحرير مرجع الشخص، وتعديل عناصر النص والواجهة، وتحويل المنظور، ونقل الأسلوب. تُشتق البيانات من عملية توليد تعتمد على نماذج متعددة الوسائط كبيرة الحجم (مثل GPT-4o وGPT-Image-1). يجمع هذا النهج بين بناء التعليمات، وتوليد الصور، وفحص الجودة لضمان ملاءمة عينات التحرير واتساقها. تتكون بنية البيانات من ثلاثة عناصر: "صورة المصدر - تعليمات التحرير - نتيجة التحرير"، بالإضافة إلى معلومات حول فئة التحرير والمصدر.

تكوين البيانات

  • تحرير مرجع الكائن
    • يتم استخدامه لتعديل خصائص كائنات محددة، بما في ذلك اللون والشكل والمقياس والموضع.
    • تحتوي على 4 أنواع من التحرير وإجمالي 10,051 عينة (9,851 في مجموعة التدريب و200 في مجموعة الاختبار).
  • تحرير مرجع الشخص
    • قم بتعديل الأشخاص في الصورة، بما في ذلك الوضعية، والملابس، وتسريحة الشعر، ولون البشرة، وشكل الجسم.
    • تحتوي على 5 أنواع من التعديلات، بإجمالي 7,141 عينة (6,891 في مجموعة التدريب و250 في مجموعة الاختبار).
  • تحرير النصوص
    • تعديل عناصر النص في الصور، مثل نمط الخط، ومحتوى النص، ووسيلة العرض، واللون.
    • تحتوي على 4 أنواع من التعديلات، بإجمالي 4060 عينة (3860 في مجموعة التدريب و200 في مجموعة الاختبار).
  • تحرير واجهة المستخدم الرسومية
    • يتم استخدامه لتحرير خصائص الأيقونات وعرض الوسائط لعناصر واجهة المستخدم الرسومية (GUI)، التي تغطي أنظمة التشغيل iOS وAndroid وواجهات الويب.
    • يحتوي على نوعين من التعديلات، بإجمالي 2880 عينة (2780 في مجموعة التدريب و100 في مجموعة الاختبار).
  • عرض التحرير
    • إنشاء وجهات نظر مختلفة لموضوعات الصورة، بما في ذلك الأشخاص والمعالم والأشياء العامة.
    • تحتوي على 3 أنواع من التعديلات، بإجمالي 28,205 عينة (28,055 في مجموعة التدريب و150 في مجموعة الاختبار).
  • نقل الأسلوب
    • قم بتحويل الصور إلى 38 نمطًا فنيًا، بدءًا من أشكال الفن الكلاسيكية وحتى الجماليات الرقمية الحديثة.
    • تحتوي على 38 نوعًا من التحرير وإجمالي 56297 عينة (55097 في مجموعة التدريب و200 في مجموعة الاختبار).