آبل تُقدّم "مانزانو": نموذج ذكاء اصطناعي مبتكر يجمع بين فهم الصور وإنشائها
Apple is developing Manzano، نموذجًا متعدد الوسائط مبتكرًا يجمع بين فهم الصور وإنشائها في نظام واحد، وهو ما يُعدّ تحديًا تقنيًا كبيرًا يواجه معظم النماذج المفتوحة المصدر. في حين أن النماذج التجارية مثل GPT-4o من OpenAI وGemini 2.5 Flash Image Generation (Nano Banana) تتفوق في هذا المجال، فإن معظم النماذج المفتوحة تُعاني من تناقض بين الأداء في التحليل البصري والقدرة على إنشاء صور دقيقة. يُظهر بحث نُشره فريق أبل أن Manzano، الذي يحمل اسمًا يُشير إلى "شجرة التفاح" بالإسبانية، يتفوق في مهام معقدة تتطلب تفاعلًا وثيقًا مع النصوص في الصور، مثل تحليل المخططات أو فهم المستندات. الفكرة المحورية وراء النموذج هي استخدام "مُحول صور هجين"، يعتمد على معالج صور موحد يُنتج نوعين من الرموز: رموز مستمرة (浮点ية) لفهم الصورة بدقة، ورموز منفصلة (مقطعة) لتمكين إنشاء صور جديدة. هذا التصميم المتكامل يقلل التعارضات الناتجة عن استخدام أدوات منفصلة للفهم والإنشاء، وهو ما يُعدّ عائقًا شائعًا في النماذج الحالية. يتكون نموذج Manzano من ثلاث مكونات رئيسية: مُحول صور هجين، ونموذج لغة موحد، وفكّاك صور منفصل لتحسين الجودة النهائية. تم بناء ثلاث نسخ من النموذج بحجم 0.9 و1.75 و3.52 مليار معلمة، تدعم دقة من 256 إلى 2048 بكسل. تم تدريب النموذج على 2.3 مليار زوج من الصور والنصوص من مصادر عامة وداخلية، بالإضافة إلى مليار زوج من النصوص والصور الداخلية، باستخدام ما يقارب 1.6 تريليون رمز. بعض البيانات التدريبية مستمدة من مصادر صناعية مثل DALL-E 3 وShareGPT-4o. في الاختبارات، أظهر Manzano أداءً متميزًا على تسع معايير متعددة الوسائط، حيث تصدر النسخة بحجم 3 و30 مليار معلمة التصنيفات في مهام مثل ScienceQA وMMMU وMathVista، خاصة في المهام النصية المعقدة. كما أظهرت نتائج التوسع أن الأداء يتحسن مع زيادة حجم النموذج، حيث سجلت النسخة بحجم 3 مليار معلمة فرقًا يزيد عن 10 نقاط عن النسخة الأصغر. على الرغم من التقدم التقني، تظل نماذج أبل الأساسية خلف النخبة العالمية، خاصة في التكامل مع منتجاتها. لسد هذه الفجوة، تخطط أبل لدمج GPT-5 من OpenAI في منتج "Apple Intelligence" بدءًا من iOS 26. ومع ذلك، فإن Manzano يُظهر إمكانات حقيقية كنموذج مرن، حيث يسمح بتقنيات تطوير مستقلة لكل مكون، مما يفتح الباب أمام تحسينات مستقبلية مبنية على أحدث تطورات الذكاء الاصطناعي. رغم أن النموذج لم يُطلق بعد، ولا توجد نسخة تجريبية، فإن نتائج الاختبارات الأولية تُشير إلى أن Manzano قد يصبح خيارًا واعدًا لتقليل الاعتماد على النماذج الخارجية، شريطة أن تُظهر التحديثات المستقبلية قدرة فعلاً على التميز في الاستخدامات العملية.
