Llama 3.2 هنا، متعدد الوسائط ومفتوح المصدر! هوانغ رينكسون هو أول من جرب نظارات الواقع المعزز، وسعر سماعة Quest 3S منخفض بشكل مثير للسخرية

إذا كان ChatGPT من OpenAI قد أطلق "حرب الـ 100 نموذج"،لا شك أن نظارات Ray-Ban Meta الذكية هي بمثابة الفتيل الذي أشعل فتيل "حرب المائة مرآة".منذ ظهورها لأول مرة في مؤتمر مطوري Meta Connect 2023 في سبتمبر الماضي، باعت Ray-Ban Meta أكثر من مليون نسخة في بضعة أشهر فقط، ليس فقطمارك زوكربيرجوقد أطلق عليه اسم "المذهل"، مما دفع شركات محلية وأجنبية كبرى مثل جوجل وسامسونج وبايت دانس للانضمام إلى السوق!
وبعد مرور عام، أطلقت شركة Meta مرة أخرى منتجًا جديدًا للنظارات الذكية، Orion، في مؤتمر Connect Developer.هذه هي أول نظارات الواقع المعزز ثلاثية الأبعاد التي تنتجها الشركة.ووصف زوكربيرج هذه النظارات بأنها الأكثر تقدما في العالم، وأنها ستغير طريقة تفاعل الناس مع العالم في المستقبل.
بالإضافة إلى ذلك، وكما جرت العادة، تقوم Meta عادةً بإطلاق منتجات سماعة Quest الجديدة في مؤتمر Connect، وهذا العام ليس استثناءً. نظرًا لإصدار Meta العام الماضي المهمة 3 يشتكي المستخدمون عمومًا من ارتفاع السعر.هذا العام، أطلقت شركة Meta سماعة رأس جديدة، Quest 3S، والتي تتمتع بأداء مماثل لسماعة Quest 3 ولكنها أكثر تكلفة.تعتبر هذه السماعة أفضل جهاز واقع مختلط في السوق اليوم، حيث توفر تجربة واقع فائق ممتازة.
وبطبيعة الحال، وباعتبارها واحدة من التقنيات الأساسية المنتظرة بشدة من Meta، فقد خضع نموذج Llama أيضًا لتحديث كبير في هذا المؤتمر الصحفي.تعدد الوسائط يمكن لـ Llama 3.2 فهم كل من الصور والنصوص، كما يمكن للهواتف المحمولة أيضًا تشغيل نماذج كبيرة، مما يضيف المزيد من الفوائد لنظامها البيئي مفتوح المصدر.
حلم الواقع المعزز من Meta يتحقق، نظارات Orion تفتح عصرًا جديدًا من التفاعل
في أبريل من هذا العام، وللاحتفال بالذكرى السنوية العاشرة لتأسيس Reality Labs، نشرت Meta مقالة توضح تاريخ تطوير القسم وعرضت منتجها الأساسي التالي - أول نظارات الواقع المعزز. وقالت شركة Meta إن Quest 3 يسمح للمستخدمين بالتفاعل بشكل غامر مع المحتوى الرقمي في العالم المادي، وتسمح نظارات Ray-Ban Meta للمستخدمين بالاستمتاع بالعملية والترفيه الذي توفره Meta AI، وستجمع نظارات AR الجديدة بين مزايا كليهما لتحقيق أفضل اندماج تكنولوجي.
مع اقتراب مؤتمر Meta Connect 2024، تتزايد الأصوات في السوق التي تتكهن بأن نظارات الواقع المعزز هذه سيتم إطلاقها في هذا المؤتمر. كما هو متوقع،أطلقت شركة Meta اليوم نظارة الواقع المعزز Orion، وهي أول نظارة واقع معزز من إنتاجها.

وقال زوكربيرج إن أوريون ملتزمة بتغيير الطريقة التي يتفاعل بها الناس مع العالم. إنها نظارات الواقع المعزز الأكثر تقدمًا على الإطلاق واستغرق تطويرها 10 سنوات. تحتوي على شاشة AR الأكثر تقدمًا، ورقائق السيليكون المخصصة، وعدسات كربيد السيليكون، والموجهات المعقدة، وأجهزة عرض uLED، وما إلى ذلك.يتيح الجمع بين التقنيات تشغيل تجارب الواقع المعزز القوية على زوج من النظارات، مع استهلاك جزء بسيط فقط من الطاقة ووزن سماعة الرأس MR.

بعبارات بسيطة،تستخدم نظارات الواقع المعزز هذه بنية عرض جديدة.يستخدمجهاز عرض بيكويتم إسقاط الضوء في الدليل الموجي، ثم أعماق وأحجام مختلفة منالهولوغراميتم عرض العالم أمام المستخدم ويتم تشغيله بواسطة بطارية موجودة في معبد النظارات. على سبيل المثال، إذا أراد المستخدمون مقابلة أصدقاء بعيدين عن منازلهم، فسوف يظهرون في غرفة المعيشة على شكل صور ثلاثية الأبعاد، كما لو كانوا هناك بالفعل.
ومن الجدير بالذكر أن أوريون لديه 7 مدمجًا في حافة الإطار.كاميرا صغيرةوباستخدام أجهزة استشعار مدمجة مع تتبع الصوت والعين والإيماءات، وسوار EMG، يمكن للمستخدمين التمرير والنقر والتمرير بسهولة. على سبيل المثال، إذا كنت تريد التقاط صورة أثناء الجري الصباحي، يمكن لجهاز Orion تجميد اللحظة بمجرد نقرة من إصبعك. بالإضافة إلى ذلك، يمكنك استدعاء الترفيه مثل ألعاب الورق، أو الشطرنج، أو تنس الطاولة المجسم بمجرد نقرة من أصابعك.
المؤسس والرئيس التنفيذي لشركة Nvidia جين-هسون هوانغلا أستطيع الانتظار لتجربته!

أفضل جهاز للواقع المختلط، Quest 3S، ذو قيمة رائعة مقابل المال
بعد إعلان شركة Meta عن أول سماعة رأس للواقع المختلط في العالم، Meta Quest 3، في مؤتمر Connect العام الماضي،أطلقت Meta نسخة مبسطة من Quest 3 هذا العام - Quest 3S.

وقال زوكربيرج:"لا يعد Quest 3S مجرد جهاز ذو قيمة رائعة مقابل المال فحسب، بل إنه أيضًا أفضل جهاز واقع مختلط يمكنك شراؤه في السوق!"إنها تحتوي على وظائف أساسية مشابهة لتلك الموجودة في Quest 3، وهي الواقع المختلط عالي الدقة والألوان الكاملة، مما يسمح للمستخدمين "بالسفر بسلاسة" بين العالمين المادي والافتراضي، والانخراط في مجموعة من الأنشطة مثل الترفيه واللياقة البدنية والألعاب والتجارب الاجتماعية. الفرق هو أن Quest 3S قام بتحسين العدسات وتحسين مجموعة التكنولوجيا والدقة الفعالة والزمن الكامن، كما يعمل برنامج تتبع اليد الواقعي المختلط بشكل أفضل.
إن سحر الواقع المختلط هو أنه يجلب مساحة واقعية إلىميتافيرس، مما يمنح المستخدمين شعورًا غامرًا ويسمح لهم بالتبديل بحرية بين التجارب المختلفة. على سبيل المثال، يمكن للمستخدمين اختيار وضع السينما لتكبير الشاشة إلى حجم صالة السينما والحصول على أفضل تجربة مشاهدة سينمائية.

في عرض حي، أظهر زوكربيرج تجربة غامرة من تطبيق جوال ثنائي الأبعاد إلى جهاز كمبيوتر سطح مكتب بعيد، حيث يمكن للمستخدمين فتح الشاشة ووضعها في أي مكان لتشكيل شاشة ضخمة.العرض الافتراضي، والقيام بالعمل. وذكر أن Meta تعمل مع Microsoft على ترقية ميزة سطح المكتب البعيد، وأنه قد يكون قادرًا على الاتصال بأجهزة الكمبيوتر التي تعمل بنظام Windows 11 قريبًا.

ومن الجدير بالذكر أن لعبة Meta Quest 3S تقدم تجربة واقعية للغاية بسعر لا يصدق، يبدأ من 299.99 دولارًا فقط، وسوف تكون متاحة في 15 أكتوبر. اشتري هذا الخريف مهمة 3S وسيحصل المستخدمون أيضًا على تجربة الواقع الافتراضي المجانية للعبة Batman: Arkham Shadow.
أول نموذج لاما يدعم المهام المرئية والمتعددة الوسائط والمفتوحة المصدر
بالإضافة إلى إصدار الأجهزة الرئيسي، جلب زوكربيرج أيضًا تحديثًا إلى Llama، حيث أطلق طراز Llama 3.2. باعتباره أول نموذج Llama لدعم مهام الرؤية، فإن Llama 3.2 قادر على فهم الصور والنصوص. وتشمل هذه النماذج نماذج الرؤية الصغيرة والمتوسطة الحجم (11B و90B) ونماذج النص العادي خفيفة الوزن (1B و3B) المناسبة للأجهزة الطرفية والمحمولة، وكلا الفئتين تتضمن إصدارات مدربة مسبقًا وإصدارات موجهة بدقة. ومن الجدير بالذكر أنه يمكن تجربة هذه النماذج ذات المواصفات المختلفة من خلال Meta AI.

تقييم أداء النموذج
أجرى الباحثون دراسة استقصائية متعددة اللغات لأكثر من 150مجموعات البيانات المعياريةتقييم أداء النموذج. تظهر النتائج أن نماذج Llama 3.2 1B و3B تدعم طول سياق يبلغ 128 ألف رمز. في المهام مثل اتباع التعليمات، والتلخيص، وإعادة الكتابة السريعة، واستخدام الأدوات، يتفوق نموذج 3B على نموذجي Gemma 2 2.6B وPhi 3.5-mini، بينما يمكن لنموذج 1B التنافس مع نموذج Gemma.

بالإضافة إلى ذلك، قام الباحثون بتقييم أداء النموذج على معايير فهم الصور والتفكير البصري. تظهر النتائج أن نماذج الرؤية Llama 3.2 11B و90B يمكنها استبدال نماذج النص المقابلة بسلاسة، بينما تتفوق على النماذج المغلقة المصدر مثل Claude 3 Haiku في مهام فهم الصور.

تدريب نموذج خفيف الوزن
بالنسبة لنماذج Llama 3.2 1B و3B، استخدم الباحثون طرق التقليم والتقطير لاستخراج نماذج 1B/3B الفعالة من نماذج 8B/70B.
على وجه التحديد، قام الباحثون بدمج تاريخ لوجيت لنماذج 8B و70B في Llama 3.1 في مرحلة ما قبل التدريب، واستخدموا مخرجات هذه النماذج الأكبر (تاريخ لوجيت) كأهداف على مستوى الرمز للتقليم المنظم. بعد التقليم، استخدم الباحثونتقطير المعرفةلاستعادة أداء النموذج.


تدريب النموذج البصري
تنقسم عملية تدريب Llama 3.2 إلى مراحل متعددة. أولاً، ابدأ بنموذج النص Llama 3.1 المدرب مسبقًا. بعد ذلك، أضاف الباحثون محولًا للصور ومشفّرًا وقاموا بتدريبهما مسبقًا على بيانات مقترنة ضوضائية (صورة، نص) واسعة النطاق. بعد ذلك، يتم تدريبه على كمية متوسطة الحجم من البيانات المزدوجة عالية الجودة داخل المجال والمعززة بالمعرفة (الصورة والنص).
وفي المراحل اللاحقة من التدريب، اعتمد الباحثون نهجًا مشابهًا لنموذج النص، باستخدام جولات متعددة من المحاذاة للضبط الدقيق الخاضع للإشراف، وعينات الرفض، وتحسين التفضيل المباشر. استخدم الباحثون نموذج Llama 3.1 لتوليد بيانات اصطناعية، وأسئلة وأجوبة مفلترة ومعززة للصور داخل النطاق، واستخدموا نموذج المكافأة لتصنيف جميع إجابات المرشحين، مما يضمن بيانات ضبط عالية الجودة.
بالإضافة إلى ذلك، قدم الباحثون بيانات تخفيف المخاطر الأمنية لإنشاء نموذج آمن للغاية وعملي. وأخيرًا، وُلد نموذج Llama 3.2، الذي يمكنه فهم كل من الصور والنصوص، مما يمثل خطوة مهمة أخرى لنموذج Llama على الطريق نحو قدرات وكيل أكثر ثراءً.

نماذج النشر المحلية آمنة وفي الوقت المناسب
ويشير الباحثون إلى ميزتين رئيسيتين لتشغيل نموذج Llama 3.2 محليًا. أولاً، من حيث سرعة الاستجابة، بما أن جميع العمليات تتم محليًا، فإن سرعة المطالبات والاستجابات يمكن أن تكون قريبة من الفورية.
ثانياً، من حيث الخصوصية والأمان، لا يتطلب تشغيل النموذج محلياً إرسال البيانات مثل الرسائل والتقويمات إلى السحابة، مما يحمي خصوصية المستخدم ويجعل التطبيق أكثر خصوصية. باستخدام المعالجة المحلية، يمكن للتطبيقات التحكم بشكل صريح في الاستعلامات التي تبقى على الجهاز والاستعلامات التي تتم معالجتها بواسطة نماذج أكبر في السحابة.

تمسك بقوةمفتوح المصدرالهدف الأصلي: نشر النموذج أبسط وأكثر كفاءة
لقد التزمت Meta دائمًا بالنية الأصلية للمصدر المفتوح. من أجل تبسيط عملية المطورين الذين يستخدمون نماذج Llama في بيئات مختلفة (بما في ذلك العقدة الفردية، والنشر المحلي، والسحابة والأجهزة)،تحسين البحثأعلنت شركة Meta أنها ستشارك أول توزيعات Llama Stack الرسمية، والتي توفر نشر RAG بنقرة واحدة والتطبيقات المدعومة بالأدوات مع ميزات أمان متكاملة.

وفقًا للإعلان الرسمي، سيتم إطلاق طراز Llama 3.2 http://llama.com وHugging Face، وسيوفر دعم التطوير الفوري على منصات الشركاء بما في ذلك AMD وAWS وDatabricks وDell وGoogle Cloud وGroq وIBM وIntel وMicrosoft Azure وNVIDIA وOracle Cloud وSnowflake وغيرها.
وباعتباره من المؤيدين الدائمين للمصدر المفتوح، قال زوكربيرج ذات مرة في محادثة مع هوانج رينكسون أن "ميتا استفادت من نظام المصدر المفتوح ووفرت مليارات الدولارات". لا شك أن Llama هي أداة مهمة لبناء نظام بيئي مفتوح المصدر. يتوسع Llama 3.2 بشكل أكبر ليشمل المهام المرئية ويحقق تعدد الوسائط، وهو ما من شأنه أن يضيف فوائد إلى نظامه البيئي مفتوح المصدر.