دورة تعليمية عبر الإنترنت丨معالجة صورة في 9 ثوانٍ! تم إطلاق إطار عمل فعال لتحرير الصور In-Context Edit

تواجه طرق تحرير الصور الحالية بشكل أساسي مشكلة التوازن الصعب بين الدقة والكفاءة. تتطلب طرق الضبط الدقيق قدرًا كبيرًا من موارد الحوسبة ومجموعات البيانات عالية الجودة، في حين تواجه التقنيات التي لا تتطلب تدريبًا صعوبة في تلبية جودة فهم التعليمات وتحريرها. في هذا الصدد،أطلق فريق بحثي من جامعة تشجيانغ وجامعة هارفارد برنامج In-Context Edit (ICEdit)، وهو إطار عمل لتحرير الصور يعتمد على الأوامر.يمكن تحقيق تعديل دقيق للصورة باستخدام عدد قليل من أوامر النص فقط، مما يوفر إمكانيات أكبر لمعالجة الصور وإنشاء المحتوى.
يتناول In-Context Edit القيود التي تفرضها التقنيات الحالية من خلال ثلاث مساهمات رئيسية: إطار عمل التحرير السياقي، واستراتيجية ضبط هجينة LoRA-MoE، وطريقة قياس الوقت لاستنتاج الفلتر المبكر. وبالمقارنة بالطرق السابقة، فهي تستخدم فقط 1% من المعلمات القابلة للتدريب (200M) و0.1% من بيانات التدريب (50k)، ولكنها تظهر قدرة تعميم أفضل وهي قادرة على التعامل مع مجموعة متنوعة من مهام تحرير الصور. وفي الوقت نفسه، بالمقارنة مع جيميني وGPT-4o،هذه الأداة مفتوحة المصدر ليست فقط أرخص وأسرع (تستغرق معالجة الصورة حوالي 9 ثوانٍ فقط)، ولكنها تتمتع أيضًا بأداء قوي للغاية.
في الوقت الحالي،تم إطلاق "In-Context Edit: Command-Driven Image Generation and Editing" في قسم "البرامج التعليمية" على الموقع الرسمي لشركة HyperAI.انقر على الرابط أدناه لتجربة البرنامج التعليمي للنشر بنقرة واحدة ⬇️
رابط البرنامج التعليمي:https://go.hyper.ai/SHowG
تشغيل تجريبي
1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرنامج التعليمي"، ثم حدد "التحرير في السياق: إنشاء الصور وتحريرها باستخدام الأوامر"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".


2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصورتين "NVIDIA GeForce RTX 4090" و"PyTorch". توفر منصة OpenBayes أربع طرق للدفع. يمكنك اختيار "الدفع حسب الاستخدام" أو "يوميًا/أسبوعيًا/شهريًا" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. نظرًا لأن النموذج كبير الحجم، يستغرق عرض واجهة WebUI حوالي 3 دقائق، وإلا فسيتم عرض "البوابة سيئة". يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.


عرض التأثير
قم برفع الصورة في "تحميل الصورة للتحرير"، ثم أدخل كلمة المطالبة في مربع النص، وأخيرًا انقر فوق "تشغيل" لتوليدها.
مقدمة لتعديل المعلمات:
* مقياس التوجيه: يتم استخدامه للتحكم في تأثير الإدخال الشرطي (مثل النص أو الصورة) على النتائج المولدة في النموذج التوليدي. ستعمل قيم التوجيه الأعلى على جعل النتائج المولدة تتطابق بشكل أوثق مع شروط الإدخال، بينما ستحتفظ القيم المنخفضة بمزيد من العشوائية.
* عدد خطوات الاستدلال: يمثل عدد تكرارات النموذج أو الخطوات في عملية الاستدلال، ويمثل عدد خطوات التحسين التي يتخذها النموذج لتوليد النتيجة. يؤدي عدد أكبر من الخطوات عادةً إلى إنتاج نتائج أكثر دقة، ولكن قد يؤدي إلى زيادة وقت الحساب.
* البذرة: بذرة رقم عشوائي، تستخدم للتحكم في عشوائية عملية التوليد. يمكن لقيمة البذرة نفسها أن تنتج نفس النتائج (بشرط أن تكون المعلمات الأخرى هي نفسها)، وهو أمر مهم للغاية في إعادة إنتاج النتائج.

لقد قمت برفع صورة شخصية مع المطالبة: اجعل شعرها أخضر غامقًا وملابسها منقطة. التأثير كما هو موضح أدناه~
