آبل تعيد ابتكار تقنية التدفقات الت_NORMALIZING_ لإنتاج صور عالية الجودة بطرق جديدة
آبل تستكشف تقنية نسيت في مجال توليد الصور في الوقت الحاضر، تتركز معظم النماذج التي تستخدم لتوليد الصور على تقنيتين رئيسيتين: نماذج التشتت مثل Stable Diffusion، ونماذج التوليد الذاتي مثل GPT-4o من OpenAI. لكن آبل أصدرت حديثاً ورقتي بحث تظهران أن هناك مكاناً لتقنية ثالثة نسِيتْ منذ فترة طويلة: التدفقات المعيارية (Normalizing Flows). ما هي التدفقات المعيارية؟ التدفقات المعيارية هي نوع من نماذج الذكاء الاصطناعي تعمل على تعلم كيفية تحويل البيانات الحقيقية (مثل الصور) إلى ضوضاء منظمة، ثم عكس هذا العملية لتوليد عينات جديدة. الميزة الكبرى لهذه التقنية هي قدرتها على حساب احتمالية كل صورة تولد، وهي خاصية لا يمكن لنماذج التشتت تحقيقها. هذا يجعلها مثالية للمهام التي تتطلب فهم الاحتمالات بدقة. ومع ذلك، فإن هناك سببًا في عدم سماع الكثير عنها مؤخرًا: النماذج الأولى التي تعتمد على التدفقات كانت تنتج صورًا مشوشة ومفتقرة للتفاصيل والمتنوعية التي توفرها نماذج التشتت والترانسفورمر. دراسة الأولى: TarFlow في ورقة البحث "Normalizing Flows are Capable Generative Models"، قدمت آبل نموذجًا جديدًا يُدعى TarFlow، اختصارًا لـ Transformer AutoRegressive Flow. في جوهره، يستبدل TarFlow الطبقات اليدوية القديمة التي استخدمت في النماذج السابقة بكتل ترانسفورمر. يقسم هذا النموذج الصور إلى شرائح صغيرة ويقوم بتوليدها بكتل، حيث يتم توقع كل كتلة بناءً على جميع الشرائح التي جاءت قبلها. هذا هو نفس الأساسي الذي تعتمد عليه OpenAI في توليد الصور حاليًا. الاختلاف الرئيسي هو أن OpenAI تولد رموزًا متقطعة، معاملة الصور كسلسلة طويلة من الرموز النصية. بينما يقوم TarFlow بتوليد قيم البكسل مباشرة، دون تجزئة الصورة أولاً. هذا الاختلاف البسيط ولكنه مهم يسمح لشركة آبل بتجنب فقدان الجودة والصلابة التي غالبًا ما تحدث عند ضغط الصور في معجم ثابت من الرموز. رغم ذلك، كان هناك بعض القيود، خاصة عند التوسع إلى صور أكبر بدقة عالية. وهنا تأتي الدراسة الثانية. دراسة الثانية: STARFlow في ورقة البحث "STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis"، تقوم آبل بتطوير TarFlow مباشرة وتقدم نموذجًا جديدًا يُدعى STARFlow (Scalable Transformer AutoRegressive Flow)، مع تحسينات رئيسية. التغيير الأكبر هو أن STARFlow لم تعد تولد الصور مباشرة في مساحة البكسل. بدلاً من ذلك، تعمل على نسخة ضغطت من الصورة، ثم تنقل الأمور إلى موالف يوسع كل شيء إلى الدقة الكاملة في الخطوة النهائية. هذا التحول إلى ما يُعرف بالمساحة الكامنة يعني أن STARFlow لا تحتاج إلى توقع ملايين البكسل مباشرة. يمكنها التركيز على الهيكل العام للصورة أولاً، وتترك تفاصيل النسيج الدقيق لموالف اليوسع. قامت آبل أيضًا بإعادة تصميم كيفية تعامل النموذج مع الأوامر النصية. بدلاً من بناء مُرمِّز نصي منفصل، يمكن لـ STARFlow توصيل نماذج لغوية موجودة (مثل النموذج اللغوي الصغير Gemma من Google) لفهم اللغة عندما يطلب المستخدم من النموذج إنشاء الصورة. هذا يحافظ على جانب توليد الصور في النموذج مركزًا على تحسين التفاصيل البصرية. مقارنة STARFlow مع GPT-4o من OpenAI بينما تعيد آبل تفكيرها في التدفقات المعيارية، انتقلت OpenAI أيضًا نحو ما بعد التشتت مع نموذجها GPT-4o. لكن أساليبهما مختلفة بشكل جوهري. يعامل GPT-4o الصور كسلسلة من الرموز المتقطعة، كما لو كانت كلمات في جملة. عندما تطلب من ChatGPT توليد صورة، يتوقع النموذج رمز صورة تلو الآخر، مبنيًا الصورة قطعةً قطعةً. هذا يمنح OpenAI مرونة هائلة: يمكن لنفس النموذج توليد النصوص والصور والصوت ضمن سلسلة رموز موحدة. لكن ما هو الثمن؟ يمكن أن يكون التوليد رمزًا برمز بطيًا للغاية، خاصةً للصور الكبيرة أو عالية الدقة. وهو كذلك مكلف للغاية من الناحية الحاسوبية. ومع ذلك، بما أن GPT-4o يعمل تمامًا في السحابة، فإن OpenAI ليست مقيَّدة بتأخير الاتصال أو استهلاك الطاقة. الخلاصة في النهاية، بينما تسعى كل من آبل وOpenAI إلى التطور خارج نطاق نماذج التشتت، فإن آبل تركز بوضوح على تطوير تقنياتها للاستخدام في الأجهزة المحمولة، بينما تبني OpenAI لنماذجها في مراكز البيانات. تقييم الحدث من قبل مختصين يؤكد الخبراء في مجال الذكاء الاصطناعي أن هذه الجهود من آبل تمثل خطوة مهمة في تطوير تقنيات توليد الصور. تعتبر التدفقات المعيارية تقنية واعدة يمكن أن تفتح أبواباً جديدة في مجالات مثل التعديل على الصور والتحليل البصري. كما أن التركيز على تحسين الأداء في الأجهزة المحمولة يعكس استراتيجية آبل في تقديم تجربة مستخدم متميزة عبر منتجاتها. نبذة عن شركة آبل آبل هي شركة تكنولوجيا أمريكية رائدة، تأسست عام 1976 وتُعرف بأجهزتها المبتكرة مثل iPhone وiPad وMac. تتمتع الشركة بسجل حافل في الابتكار التكنولوجي والريادة في مجال الذكاء الاصطناعي، مما يجعل أي تطور تقني من جانبها محل اهتمام كبير في الصناعة.