In-Context Edit هو إطار عمل فعال لتحرير الصور المستند إلى التعليمات والذي أصدرته جامعة تشجيانغ وجامعة هارفارد في 29 أبريل 2025. وبالمقارنة مع الطرق السابقة، يحتوي ICEdit على 1% فقط من المعلمات القابلة للتدريب (200M) و0.1% من بيانات التدريب (50k)، مما يدل على قدرة تعميم قوية ويمكنه التعامل مع مهام التحرير المختلفة. وبالمقارنة مع النماذج التجارية مثل Gemini وGPT4o، فهو أكثر انفتاحًا على المصدر، وأقل تكلفة، وأسرع وأقوى. نتائج الورقة ذات الصلة هيالتحرير في السياق: تمكين تحرير الصور التعليمية باستخدام التوليد في السياق في محول الانتشار واسع النطاق".
يستخدم هذا البرنامج التعليمي بطاقة RTX 4090 واحدة كمورد. إذا كنت تريد تحقيق الـ 9 ثوانٍ المذكورة رسميًا لإنشاء الصور، فستحتاج إلى بطاقة رسوميات ذات تكوين أعلى. يدعم هذا المشروع حاليًا أوصاف النصوص باللغة الإنجليزية فقط.
النماذج المستخدمة في هذا المشروع:
لورا طبيعية
FLUX.1-ملء-تطوير
2. أمثلة المشاريع
مقارنة مع نماذج الأعمال الأخرى
3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.
2. استخدم العرض التوضيحي
❗️نصائح هامة للاستخدام:
مقياس التوجيه: يتم استخدامه للتحكم في الدرجة التي تؤثر بها المدخلات الشرطية (مثل النص أو الصور) في النماذج التوليدية على النتائج المولدة. ستعمل قيم التوجيه الأعلى على جعل النتائج المولدة تتطابق بشكل أوثق مع شروط الإدخال، بينما ستحتفظ القيم المنخفضة بمزيد من العشوائية.
عدد خطوات الاستدلال: يمثل عدد تكرارات النموذج أو عدد الخطوات في عملية الاستدلال، ويمثل عدد خطوات التحسين التي يستخدمها النموذج لتوليد النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى إنتاج نتائج أكثر دقة، ولكن قد يؤدي إلى زيادة وقت الحساب.
البذرة: بذرة رقم عشوائي، تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
معلومات الاستشهاد
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي. معلومات الاستشهاد لهذا المشروع هي كما يلي:
@misc{zhang2025ICEdit,
title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer},
author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
year={2025},
eprint={2504.20690},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.20690},
}