HyperAI

Step1X-Edit: أداة تحرير الصور

نظرة عامة على المشروع

نجوم جيثب

يستخدم هذا البرنامج التعليمي بطاقة RTX A6000 واحدة كمورد.

Step1X-Edit هو نموذج متطور لتحرير الصور، أصدره فريق StepFun في 25 أبريل 2025، ويهدف إلى توفير أداء يُضاهي النماذج مغلقة المصدر مثل GPT-4o وGemini2 Flash. وبشكل أكثر تحديدًا، يستخدم Step1X-Edit تقنية LLM متعددة الوسائط لمعالجة الصور المرجعية وتعليمات تحرير المستخدم، واستخراج التضمينات الكامنة ودمجها مع مُفكك تشفير الصور المنتشرة للحصول على الصورة المستهدفة. يبلغ إجمالي حجم معلمات النموذج 19 بايت (7 بايت MLLM + 12 بايت DiT)، ويتميز بثلاث قدرات رئيسية: التحليل الدلالي الدقيق، والحفاظ على اتساق الهوية، والتحكم عالي الدقة على المستوى الإقليمي؛ كما يدعم 11 نوعًا من مهام تحرير الصور عالية التردد، مثل استبدال النصوص، ونقل الأنماط، وتحويل المواد، وتنقيح الحروف، وغيرها.

Step1X-Edit هو أول نظام مفتوح المصدر يحقق دمجًا عميقًا بين MLLM وDiT، مما يُحسّن دقة التحرير ودقة الصورة بشكل كبير. في أحدث معيار لتحرير الصور GEdit-Bench، يتفوق Step1X-Edit على نماذج مفتوحة المصدر الحالية من حيث الاتساق الدلالي وجودة الصورة والتقييم الشامل، وهو يُضاهي GPT-4o وGemini 2.0 Flash.Step1X-Edit: إطار عمل عملي لتحرير الصور بشكل عام".

يتمتع برنامج Step1X-Edit بالقدرات الأساسية التالية لمهام تحرير الصور باللغة الطبيعية:

  • تحليل الدقة الدلالية: يدعم تعليمات التركيبات المعقدة الموصوفة بلغة طبيعية. لا تتطلب هذه التعليمات قوالب، ويمكنها التعامل بمرونة مع احتياجات التحرير متعددة المهام. كما يدعم التعرف على النصوص واستبدالها وإعادة بنائها في الصور.
  • الحفاظ على اتساق الهوية: بعد التحرير، يمكن الاحتفاظ بملامح الوجه والوضعية والهوية بشكل ثابت، وهو مناسب لسيناريوهات عالية الاتساق مثل الأشخاص الافتراضيين ونماذج التجارة الإلكترونية والصور الاجتماعية؛
  • التحكم عالي الدقة على مستوى المنطقة: يدعم التحرير الاتجاهي للنصوص والمواد والألوان وما إلى ذلك في المناطق المحددة، مع الحفاظ على نمط صورة موحد وتوفير إمكانيات تحكم أكثر دقة.

أمثلة المشاريع

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang  لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}