أبل تكشف النقاب عن تحديثات مُهمة في تقريرها لعام 2025 حول تقنيات النماذج الأساسية لـ Apple Intelligence مع مساهمات بونغ رو Ming
شركة آبل أصدرت مؤخرًا تقريرًا تقنيًا مهمًا بعنوان "تقرير آبل للذكاء الاصطناعي حول نماذج اللغة الأساسية 2025"، وهو تحديث مهم لتكنولوجيا النماذج الأساسية للذكاء الاصطناعي التي كشفت عنها الشركة لأول مرة العام الماضي. يأتي هذا التقرير بعد فترة قصيرة من انتقال Ruoming Pang، رئيس فريق النماذج الأساسية في آبل، إلى شركة Meta براتب سنوي بلغ عدة ملايين من الدولارات. يعتبر هذا التقرير ربما آخر إنجازات Pang الهامة في آبل، حيث قدمه بنفسه على مواقع التواصل الاجتماعي وأعلن تسليم المسؤولية إلى Zhifeng Chen. يقدم التقرير تفصيلًا معمقًا لاستراتيجية نموذجين تعملان بالتوازي. الأول هو نموذج يعمل على الجهاز يحتوي على حوالي 3 مليارات معلمة، مصمم لتشغيله بكفاءة عالية على أجهزة آبل مثل iPhone وiPad وMac. تم تحسين هذا النموذج بشكل كبير للاستفادة من أداء شرائح آبل الخاصة. أما النموذج الثاني فهو نموذج خادم قابل للتوسع يعمل على السحابة الخاصة بآبل، وهو مصمم لمعالجة الطلبات الأكثر تعقيدًا من المستخدمين. يهدف هذا الإطار "الجهاز والسحابة" إلى تحقيق توازن بين الأداء والكفاءة والخصوصية، بحيث يتم التعامل مع المهام البسيطة على الجهاز المحلي والمهام المعقدة على الخوادم السحابية مع الحفاظ على مستويات مكافئة من حماية الخصوصية. لتحسين أداء النموذج الذي يعمل على الجهاز، طور المهندسون في آبل معمارية مبتكرة تُعرف باسم "مشاركة ذاكرة التخزين المؤقت للمفاتيح والقيم" (KV Cache Sharing). تتألف هذه المعمارية من قسمين؛ القسم الأول (يشكل 37.5% من طبقات النموذج) يشارك ذاكرة التخزين المؤقت للمفاتيح والقيم التي يولدتها القسم الثاني (يشكل 62.5% من طبقات النموذج)، مما يتسبب في تقليل الذاكرة المطلوبة بنسبة 37.5% ويقصر وقت الاستجابة لإنشاء أول وحدة لغووية (token). بالنسبة للنموذج الخادمي، طورت آبل معمارية جديدة للـ Transformer تُعرف باسم "خلطة الخبراء المتوازية" (Parallel-Track Mixture-of-Experts, PT-MoE). تقسم هذه المعمارية النموذج الكبير إلى وحدات معالجة متوازية أصغر تُعرف بـ "المسارات" (Tracks). كل مسار يعالج المعلومات بشكل مستقل ويقوم بالتوافق فقط في نقاط معينة، مما يقلل بشكل كبير من زجاجات الرقبة في الاتصال الشائع في النماذج الكبيرة ويعزز كفاءة التدريب والاستدلال. بالإضافة إلى ذلك، فإن استخدام طبقات "خلطة الخبراء" (MoE) داخل كل مسار يتيح للنموذج التوسع بكفاءة دون التضحية بجودة النموذج. في مجال تزويد النماذج بقدرة متعددة الوسائط لفهم الصور، يقدم التقرير تفاصيل تقنية حول الكودر البصري المستخدم. يستخدم النموذج الخادمي شبكة ViT-g كأساس بصري، بينما يعتمد النموذج الذي يعمل على الجهاز على شبكة ViTDet-L الأكثر كفاءة. يجدر الذكر أن النموذج الذي يعمل على الجهاز يستخدم أيضًا آلية "السجل-النافذة" (Register-Window) الجديدة، مما يسمح له بالتقاط معلومات السياق العامة والتفاصيل الدقيقة في الصور بشكل فعال. فيما يتعلق ببيانات التدريب، حافظت آبل على التزامها بحماية الخصوصية، حيث أوضحت مصادر البيانات ومبادئ الخصوصية في التقرير. تأتي بيانات التدريب من ثلاثة مصادر رئيسية: بيانات مرخصة من الناشرين، معلومات عامة من الإنترنت الملتقطة بواسطة برنامج الزحف آبل Applebot، وبيانات مركبة عالية الجودة. أكدت آبل أنها لا تستخدم بيانات خاصة للمستخدمين أو معلومات التفاعل في عملية التدريب. كما تلتزم الشركة ببروتوكول robots.txt لتوفير خيار للناشرين لمنع استخدام محتواهم في تدريب النماذج، مما يضمن حقوق أصحاب المحتوى وخضوعها للخصوصية. أشار التقرير إلى أن آبل قد تعاملت مع أكثر من 10 مليار زوج من الصور والنصوص عالية الجودة و5 مليارات زوج من بيانات العناوين الصورية المرتبكة، وتم تنقية وتكرير هذه البيانات عبر خطوط إنتاج متقدمة لضمان جودة بيانات التدريب. من أجل ضمان تشغيل هذه النماذج بكفاءة على الأجهزة الفعلية، اتبعت آبل استراتيجيات تحسين مكثفة. يتم تقليل وزن النموذج الذي يعمل على الجهاز باستخدام تقنية "تدريب الوعي بالكم" (Quantization-Aware Training, QAT) إلى 2 بت لكل وزن. أما النموذج الخادمي فيستفيد من تقنية "ضغط النسيج القابل للتوسع التكيفي" (Adaptive Scalable Texture Compression, ASTC)، التي تستخدم وحدة تفكيك الضغط الموجودة في شرائح GPU الخاصة بآبل لتقليل وزن النموذج إلى حوالي 3.56 بت لكل وزن بتكلفة حسابية قليلة جدًا. لتعويض أي خسارة في الأداء قد تحدث أثناء الضغط، تعتمد آبل على تدريب المعدلات ذات الرتبة المنخفضة (Low-Rank Adaptation, LoRA). أظهرت نتائج تقييم الأداء أن نموذج آبل الذي يعمل على الجهاز يتفوق أو يتساوى مع نماذج مفتوحة المصدر مماثلة الحجم مثل Qwen-2.5-3B وGemma-3-4B في اختبارات معيارية مثل MMLU. بينما أدّى النموذج الخادمي بشكل ممتاز في المقارنات مع LLaMA 4 Scout، لكنه ما زال يتأخر قليلاً عن نماذج أكبر مثل Qwen-3-235B وGPT-4o. في مقارنات مباشرة مع مقيمين بشر، أظهر نموذج آبل أداءً قويًا في المناطق اللغوية المختلفة ومجموعة متنوعة من المهام. أخيرًا، أطلقت آبل إطارًا جديدًا للنماذج الأساسية يُعرف بـ "الإطار الأساسي للنماذج" (Foundation Models framework)، يُمكّن المطورين من استدعاء النموذج الذي يعمل على الجهاز والمكون من 3 مليارات معلمة مباشرة. يتم دمج هذا الإطار بشكل عميق مع لغة البرمجة Swift، ويحتوي على ميزة "الإنشاء الموجه" التي تسمح للمطورين بإنشاء أنواع بيانات Swift المهيكلة ببضع سطور فقط من الكود، مما يبسط عملية دمج وظائف الذكاء الاصطناعي في التطبيقات. تؤكد آبل أن تصميم الإطار بأكمله يتماشى مع مبادئ الذكاء الاصطناعي المسؤولة التي تتبناها، والتي تشمل وجود العديد من الحواجز الأمنية لمساعدة المطورين في بناء تطبيقات ذكية تحترم الخصوصية.