طريقة جديدة لتوليد وتحرير الصور باستخدام ذكاء اصطناعي دون الحاجة لمولد صور
طريقة جديدة لإعادة تحرير وتوليد الصور من المتوقع أن تصبح تقنيات توليد الصور بواسطة الذكاء الاصطناعي، والتي تعتمد على الشبكات العصبية لإنشاء صور جديدة من مجموعة متنوعة من المدخلات بما في ذلك النصوص، صناعة بقيمة مليارات الدولارات بحلول نهاية هذا العقد. حتى مع التكنولوجيا الحالية، يمكن إنشاء صورة خيالية مثل صورة صديق يغرس العلم على كوكب المريخ أو يطير بلا حذر نحو ثقب أسود في أقل من ثانية. ومع ذلك، قبل أن يتمكن هؤلاء المولدات من أداء مثل هذه المهام، غالبًا ما يتم تدريبها على قواعد بيانات ضخمة تحتوي على ملايين الصور التي غالباً ما تكون مرتبطة بنصوص. هذا التدريب يمكن أن يستغرق أسابيع أو شهوراً، مستهلكاً موارد حوسبة ضخمة. ولكن ما لو كان من الممكن توليد الصور باستخدام طرق الذكاء الاصطناعي دون الحاجة إلى استخدام مولدات على الإطلاق؟ هذا السؤال كان محور البحث الذي تم تقديمه في ورقة بحثية في المؤتمر الدولي للتعلم الآلي (ICML 2025)، الذي عُقد في فانكوفر، كولومبيا البريطانية، خلال هذا الصيف. كتب هذه الورقة الباحثين لوكاس لاو بيتشر، وهو طالب دراسات عليا في مختبر MIT للنظام والمعلومات (LIDS)، وتيانهونغ لي، وهو باحث ما بعد الدكتوراه في مختبر الذكاء الاصطناعي وهندسة الحاسب الآلي في MIT (CSAIL)، وشينلي تشين من Facebook AI Research، وسرتاق كارامان، أستاذ الهندسة الفضائية والطيران في MIT ومدير LIDS، وكايماينغ هي، أستاذ مشارك في هندسة الكهرباء والحاسب الآلي في MIT. بدأ هذا الجهد المشترك من مشروع فصل دراسي في دورة دراسات عليا حول النماذج المولدة العميقة التي اتخذها لاو بيتشر في الخريف الماضي. خلال المناقشات خلال الفصل الدراسي، أصبح واضحاً لكل من لاو بيتشر وكيماينغ هي، الذي قدم الدورة، أن هذا البحث له إمكانات حقيقية تتجاوز حدود الواجبات المنزلية العادية. تم جلب باقي المشاركين إلى المشروع بعد ذلك. كان نقطة انطلاق لاو بيتشر هو ورقة بحثية نُشرت في يونيو 2024، كتبها باحثون من جامعة ميونيخ التقنية والشركة الصينية ByteDance، والتي قدمت طريقة جديدة لتمثيل المعلومات البصرية تُعرف باسم المُرمِّز ذو البعد الواحد (1D tokenizer). باستخدام هذا الجهاز، والذي يعد نوعاً من الشبكات العصبية، يمكن تحويل صورة بحجم 256x256 بيكسل إلى تسلسل من فقط 32 رقمًا، تُعرف بالرموز. يقول لاو بيتشر: "كانت أود أفهم كيف تمكنت هذه التقنية من تحقيق هذا المستوى العالي من الضغط، وما الذي تمثله هذه الرموز حقًا." المُرمِّزات السابقة كانت تفكك الصورة عادةً إلى مصفوفة من 16x16 رمزًا، حيث يحمل كل رمز معلومات مضغوطة تتعلق بجزء معين من الصورة الأصلية. بينما يمكن للمُرمِّزات ذات البعد الواحد تشفير الصورة بكفاءة أكبر باستخدام عدد أقل بكثير من الرموز، وهذه الرموز قادرة على التقاط معلومات عن الصورة بأكملها وليس فقط جزء منها. بالإضافة إلى ذلك، كل رمز هو رقم مكون من 12 خانة تتكون من 1s و 0s، مما يتيح حوالي 4,000 احتمال مختلف. يشرح هي: "إنه مثل مفردات مؤلفة من 4,000 كلمة تشكل لغة خفية مجردة تتحدث بها الحواسيب." كان نهج لاو بيتشر بسيطًا. إذا كنت تريد معرفة ما يفعله رمز معين، يمكنك ببساطة إزالته واستبداله بقيمة عشوائية، ورؤية ما إذا كان هناك تغيير مميز في الناتج. اكتشف أنه عند استبدال رمز واحد، يتغير جودة الصورة، متحولًا من صورة منخفضة الدقة إلى صورة عالية الدقة أو العكس. رمز آخر أثر على ضبابية الخلفية، بينما أثر رمز ثالث على السطوع. كما اكتشف رمزًا يتعلق بالوضع، مثل تحريك رأس الطائر في صورة الحجل من اليمين إلى اليسار. يقول لاو بيتشر: "كانت هذه نتيجة لم تُشاهد من قبل، حيث لم يلاحظ أحد التغييرات المرئية من تعديل الرموز." هذا الاكتشاف فتح الباب أمام طريقة جديدة لتحرير الصور. وقد أظهر فريق MIT بالفعل كيفية تبسيط و COMPUTERIZATION هذا العملية حتى لا يجب تعديل الرموز يدويًا واحدة تلو الأخرى. حقق هو وزملاؤه أيضًا نتيجة أكثر أهمية في مجال توليد الصور. نظام قادر على توليد صور عادة ما يحتاج إلى مُرمِّز يقوم بضغط وترميز البيانات البصرية، بالإضافة إلى مولد يمكنه الجمع والترتيب بين هذه التمثيلات المضغوطة لإنشاء صور جديدة. اكتشف فريق MIT طريقة لإنشاء صور دون استخدام مولد على الإطلاق. يستخدم نهجهم الجديد مُرمِّزًا ذا بعد واحد (1D tokenizer) ومرمِّز عكسيًا (detokenizer) أو ما يعرف بالفكير، يمكنه إعادة بناء الصورة من سلسلة من الرموز. ومع ذلك، وبفضل توجيهات قدمتها شبكة عصبية جاهزة تسمى CLIP — التي لا تستطيع توليد صور بمفردها، ولكنها يمكنها قياس مدى تطابق صورة معينة مع نص معين — تمكن الفريق من تحويل صورة فوكس أحمر إلى نمر. بالإضافة إلى ذلك، كانوا قادرين على إنشاء صور لنمر أو أي شكل مطلوب، بدءًا من وضعية تكون فيها جميع الرموز محددة بقيم عشوائية (وثم تتم تعديلها تكرارياً بحيث تتوافق الصورة المُعيدة بناؤها بشكل متزايد مع النص المطلوب). أظهر الفريق أيضًا أن بإمكانهم القيام بعملية "الرسم الداخلي" (inpainting)، وهي ملء أجزاء من الصور التي تم حجبها بطريقة ما. تجنب استخدام مولدات لبعض المهام يمكن أن يؤدي إلى تقليل كبير في تكاليف الحوسبة، لأن المولدات، كما ذُكر سابقًا، عادة ما تتطلب تدريبًا مكثفًا. يشرح هي: "ما قد يبدو غريبًا في مساهمات هذا الفريق هو أننا لم نخترع شيئًا جديدًا. لم نخترع المُرمِّز ذو البعد الواحد، ولم نخترع نموذج CLIP أيضًا. لكننا اكتشفنا أن قدرات جديدة يمكن أن تنشأ عندما تجمع جميع هذه القطع معًا." يعلق ساينينغ شي، عالم الحاسوب في جامعة نيويورك: "يعيد هذا العمل تعريف دور المُرمِّزات. يوضح أن مُرمِّزات الصور — أدوات عادة ما تُستخدم فقط لضغط الصور — يمكن أن تقوم بكثير من المهام الأخرى. حقيقة أن مُرمِّز البعد الواحد البسيط (والمضغوط بشدة) يمكنه التعامل مع مهام مثل الرسم الداخلي أو تحرير الصور بمساعدة النص، دون الحاجة إلى تدريب نموذج توليدي شامل، مفاجئة للغاية." يضيف زهوانج ليو من جامعة برنستون: "يُظهر عمل فريق MIT أن بإمكاننا توليد وتحرير الصور بطريقة أسهل بكثير مما كنا نعتقد سابقًا. بالأساس، يُظهر أن توليد الصور يمكن أن يكون ناتجًا ثانويًا لمُضغِّط الصور الفعال، مما قد يقلل من تكلفة توليد الصور عدة مرات." يشير كارامان إلى أن هناك العديد من التطبيقات خارج مجال رؤية الحاسوب. على سبيل المثال، يمكن اعتبار ترميز أفعال الروبوتات أو السيارات ذاتية القيادة بنفس الطريقة، مما قد يوسع تأثير هذا العمل بسرعة. يتفق لاو بيتشر مع هذه الفكرة، ملاحظًا أن الضغط الشديد الذي توفره المُرمِّزات ذات البعد الواحد يسمح بـ "بعض الأمور الرائعة" التي يمكن تطبيقها في مجالات أخرى. على سبيل المثال، في مجال السيارات ذاتية القيادة، التي تعد من اهتماماته البحثية، يمكن أن تمثل الرموز، بدلاً من الصور، المسارات المختلفة التي قد تأخذها السيارة. يجد شي أيضًا هذه الأفكار مثيرة للاهتمام. يقول: "هناك بعض الحالات الاستخدامية الرائعة التي يمكن أن تفتحها هذه الأفكار الابتكارية." تقييم الحدث ونبذة عن الشركة يعتبر هذا البحث خطوة مهمة في مجال الذكاء الاصطناعي ورؤية الحاسوب. إمكانية توليد وتحرير الصور بدون استخدام مولدات يمكن أن تقلل من التكاليف الحوسبية بشكل كبير، مما يجعل التكنولوجيا أكثر انتشارًا ومتاحة للشركات والأفراد الذين ليس لديهم موارد ضخمة. يمكن لهذه التقنية أن تؤثر بشكل كبير في تطبيقات مختلفة، مثل تحرير الصور الفنية، وإنشاء محتوى الوسائط المتعددة، وحتى في مجالات مثل الروبوتات والسيارات ذاتية القيادة. MIT (معهد ماساتشوستس للتكنولوجيا) هو أحد أبرز المؤسسات التعليمية والبحثية في العالم، معروف بابتكاراته المتكررة في مجالات العلوم والتكنولوجيا. هذا البحث يُظهر مرة أخرى كيف يمكن لجهود الباحثين الشباب والمتمرسين في MIT أن تؤدي إلى تطورات كبيرة يمكن أن تغير الطريقة التي نتعامل بها مع البيانات البصرية.