HyperAI
Back to Headlines

موديلات الانتشار التقني: كيفية إنتاج الصور باستخدام الذكاء الاصطناعي

منذ 15 أيام

نماذج التشتت: شرح بسيط الذكاء الاصطناعي المولّد هو أحد المصطلحات الشائعة اليوم، وقد شهدت السنوات الأخيرة زيادة كبيرة في التطبيقات التي تتضمن إنشاء النصوص، الصور، الصوت، والفيديو. عند الحديث عن إنشاء الصور، ظهرت نماذج التشتت (Diffusion Models) كتقنية رائدة في توليد المحتوى. رغم أنها تم تقديمها لأول مرة في عام 2015، إلا أنها شهدت تطورات كبيرة وأصبحت الآن القلب النابض للنماذج المشهورة مثل DALLE، Midjourney، وCLIP. التشتت: مثال من الفيزياء تخيل كأسًا من الماء الشفاف. ماذا يحدث إذا أضفت كمية صغيرة من سائل آخر ذي لون أصفر؟ ستنتشر السائلة الأصفر تدريجيًا وبشكل متجانس داخل الكأس، مما يجعل الخليط يكتسي بلون أصفر شفاف. هذا العملية تعرف بـ "التشتت الأمامي" (Forward Diffusion): حيث تم تغيير حالة البيئة بإضافة كمية صغيرة من سائل آخر. ولكن، هل يمكن أن يكون من السهل القيام بـ "التشتت العكسي" (Reverse Diffusion) — إرجاع الخليط إلى حالته الأصلية؟ الجواب هو أنه ليس بالسهولة، وتحقيق ذلك يتطلب آليات معقدة للغاية. تطبيق المثال على التعلم الآلي يمكن أيضًا تطبيق مفهوم التشتت على الصور. تخيل صورة عالية الجودة لكلب. يمكننا تحويل هذه الصورة تدريجيًا بإضافة ضوضاء عشوائية. نتيجة لذلك، ستتغير قيم البكسل، مما يجعل الكلب في الصورة أقل وضوحًا أو حتى غير قابل للتعرف. هذه العملية تعرف بـ "التشتت الأمامي". بينما تعتبر العملية العكسية — إعادة بناء الصورة الأصلية من صورة ضوضائية — مهمة أكثر صعوبة لأن هناك عدد أقل بكثير من الحالات القابلة للتعرف مقارنة بعدد الضوضاء الممكنة. بنية نماذج التشتت لنفهم بنية نماذج التشتت بشكل أفضل، دعنا نفحص كل من عمليات التشتت الأمامي والعكسي بشكل منفصل. التشتت الأمامي التشتت الأمامي يتضمن إضافة ضوضاء تدريجية إلى الصورة. الطريقة الأكثر شيوعًا هي أخذ قيمة عشوائية لكل بكسل من توزيع جاوس (Gaussian Distribution) بمتوسط قدره 0 وإضافتها إلى قيمة البكسل الأصلية. يتم تكرار هذه العملية على جميع البكسلات، مما يؤدي إلى إصدار ضوضائي من الصورة الأصلية. مع كل تكرار، تصبح الصورة الناتجة أقل تشابهًا مع الأصل. بعد مئات التكرارات — وهو أمر شائع في النماذج الحقيقية — تصبح الصورة غير قابلة للتعرف بسبب الضوضاء الكثيفة. التشتت العكسي قد تسأل: ما هو الغرض من إجراء كل هذه التحولات في التشتت الأمامي؟ الإجابة هي أن الصور المنتجة في كل خطوة تُستخدم لتدريب شبكة عصبية. على سبيل المثال، إذا طبقنا 100 تحويل ضوضائي تتابعي خلال التشتت الأمامي، يمكننا أخذ الصورة في كل خطوة وتدريب الشبكة العصبية على إعادة بناء الصورة من الخطوة السابقة. يتم حساب الفرق بين الصورة المتوقعة والصورة الحقيقية باستخدام دالة خسارة — مثل متوسط مربع الخطأ (Mean Squared Error, MSE)، والتي تقاس الفرق البكسل بالبكسل بين الصورتين. هذا المثال يوضح كيف تقوم نموذج التشتت بإعادة بناء الصورة الأصلية. في الوقت نفسه، يمكن تدريب النماذج على التنبؤ بالضوضاء المضافة إلى الصورة. لإعادة بناء الصورة الأصلية، يكفي خصم الضوضاء المتوقعة من الصورة في الخطوة السابقة. رغم أن هذين المهمتين قد تبدوان مشابهتين، فإن التنبؤ بالضوضاء المضافة أسهل بكثير من إعادة بناء الصورة. تصميم النموذج بعد فهم الأساسيات حول تقنية التشتت، من المهم استكشاف بعض المفاهيم المتقدمة للحصول على فهم أفضل لتصميم نماذج التشتت. عدد التكرارات عدد التكرارات هو أحد المعلمات الرئيسية في نماذج التشتت: من ناحية، استخدام المزيد من التكرارات يعني أن الصور في الخطوات المجاورة ستفترق بشكل أقل، مما يجعل مهمة تعلم النموذج أسهل. ولكن من ناحية أخرى، يزيد عدد التكرارات من التكلفة الحسابية. بينما يمكن أن تسرع القليل من التكرارات من عملية التدريب، قد يفشل النموذج في تعلم الانتقالات السلسة بين الخطوات، مما يؤدي إلى أداء ضعيف. عادةً ما يتم اختيار عدد التكرارات بين 50 و1000. تصميم الشبكة العصبية تُستخدم بنية U-Net غالبًا كأساس في نماذج التشتت لعدة أسباب: U-Net هي بنية فعالة ومعروفة في مجال تقسيم الصور الطبية. يمكن استخدام نموذج واحد مشترك لجميع التكرارات بدلاً من تدريب نموذج منفصل لكل خطوة. هذا يجعل العملية أكثر كفاءة من الناحية الحسابية. في الممارسة، هذا يعني أننا نستخدم نموذج U-Net واحدًا مع وزن مشاركة، مدرب على أزواج الصور من خطوات مختلفة في عملية التشتت. أثناء الاستدلال، تمر الصورة الضوضائية عبر نفس الشبكة العصبية المدربة عدة مرات، مما يؤدي إلى تحسينها تدريجيًا حتى يتم إنتاج صورة عالية الجودة. رغم أن جودة الإنشاء قد تنخفض قليلاً بسبب استخدام نموذج واحد فقط، إلا أن زيادة سرعة التدريب تصبح ذات أهمية كبيرة. الخلاصة في هذا المقال، استكشفنا المفاهيم الأساسية لنماذج التشتت التي تلعب دورًا حاسمًا في إنشاء الصور. هناك العديد من التباينات لهذه النماذج، من بينها نماذج التشتت المستقرة (Stable Diffusion) التي أصبحت شائعة بشكل خاص. بينما تستند هذه النماذج على نفس المبادئ الأساسية، إلا أنها تتيح أيضًا دمج النص أو أنواع أخرى من المدخلات لتوجيه وتقيد الإنشاءات المرئية. تقييم الحدث من قبل المختصين يجد المختصون في مجال الذكاء الاصطناعي أن نماذج التشتت هي خطوة هامة نحو تحسين توليد الصور بشكل طبيعي وأكثر واقعية. هذه النماذج تقدم حلولًا فعالة ومرنة، مما يفتح الباب أمام تطبيقات متنوعة في مجالات مثل الفن الرقمي، التصميم الجرافيكي، والواقع الافتراضي. نبذة تعريفية عن شركة OpenAI OpenAI هي شركة بحثية في مجال الذكاء الاصطناعي تأسست في عام 2015. تهدف الشركة إلى تطوير الذكاء الاصطناعي بطرق آمنة ومفيدة للبشرية. من بين المشاريع البارزة التي أطلقتها الشركة نموذج DALLE، وهو نظام مولّد للصور يستخدم تقنية التشتت، والذي حقق نجاحًا كبيرًا في إنشاء صور عالية الجودة بمجرد إدخال النصوص.

Related Links