في منتصف مارس، أعلنت جوجل أن مؤتمرها Google I/O سيُعقد في الواحدة صباحًا بتوقيت بكين يوم 15 مايو. ومع اقتراب موعد افتتاح المؤتمر، الذي كان من المفترض أن يكون الوقت الأنسب لأكبر قدر من النقاش، ظهرت شركة OpenAI فجأةً وأصدرت تحفتها الفنية المبتكرة GPT-4o في غضون 27 دقيقة فقط، أي قبل يوم واحد من الموعد المحدد، مما أدخل جولة جديدة من هيمنة الذكاء الاصطناعي إلى "عصرها".

كما قال عالم Nvidia جيم فان في تقييمه لـ GPT-4o،كان إصدار OpenAI لمنتج GPT-4o قبل مؤتمر Google I/O بمثابة خطوة حكيمة لكسب المزيد من الوقت.

وبغض النظر عن المباراة بين الجانبين في استراتيجية العلاقات العامة، فإن الجهد المفاجئ الذي تبذله شركة OpenAI قد يشير أيضًا إلى أن برنامج Gemni التابع لشركة Google قد وصل أيضًا إلى مرحلة التفاعل الصوتي. قبل افتتاح مؤتمر Google I/O، أصدر الحساب الرسمي لشركة Google مقطع فيديو للتفاعل الصوتي مع Gemini.وفي العرض التوضيحي، لا يستطيع Gemini التعرف على المشاهد في الوقت الفعلي من خلال كاميرا الهاتف المحمول فحسب، بل يمكنه أيضًا إجراء تفاعل صوتي سلس.

من الواضح أن نية جوجل في إصدار هذا العرض التوضيحي واضحة، ولكن هناك أيضًا أصوات في التعليقات تتساءل عما إذا كان الفيديو مزيفًا، ففي النهاية، لديه "سجل سابق". في خطابه الرئيسي اليوم، لم يقدم بيتشاي الاختبار الفعلي لوظيفة "التفاعل الصوتي"، لكنه أظهر مرة أخرى قدرات مماثلة لـ GPT-4o من خلال عرض توضيحي.

على وجه التحديد، قدم الرئيس التنفيذي لشركة جوجل، سوندار بيتشاي، ومجموعة من المديرين التنفيذيين في كلمة واحدة استمرت قرابة ساعتين:

تحديثات Gemini 1.5 Pro
جيميني 2.5 فلاش
مشروع أسترا
نظرة عامة على الذكاء الاصطناعي
فيو وإيماجن 3
…

انقر لمشاهدة البث المباشر الكامل:النسخة الكاملة من المؤتمر الرئيسي لـ Google I/O 2024 [باللغة الصينية-الإنجليزية] | يقوم Gemini 1.5 Pro بإعادة تشكيل محرك البحث ويقوم بالترقية إلى 2 مليون رمز!】

Gemini 1.5 Pro: التوسع إلى 2 مليون رمز

بعد إصدار GPT-4o في وقت مبكر من صباح أمس، خرج الجميع من صدمة "المكالمات النموذجية الكبيرة في الوقت الفعلي". وهذا يعني أيضًا أن OpenAI نجحت في رفع مستوى المنافسة في الصناعة إلى مستوى جديد مهيمن، لذا يتعين على Google مواكبة ذلك. باعتبارها نموذج الذكاء الاصطناعي "الأكبر والأقوى" لدى الشركة، يتعين على جيميني بناء سلم للشركة.

في فبراير من هذا العام، أعلنت شركة جوجل عن إطلاق Gemini 1.5، حيث يمكن لإصدار Gemini 1.5 Pro دعم ما يصل إلى مليون رمز في سياق طويل للغاية، وهو ما أدى في وقت ما إلى توسيع الفجوة في عدد الرموز مع النماذج الأكبر في نفس الفترة. اليوم، نجحت جوجل مرة أخرى في اختراق حد نافذة السياق.أعلن بيتشاي أن نافذة السياق لـ Gemini 1.5 Pro سيتم توسيعها إلى 2 مليون رمز وستكون متاحة في المعاينة الخاصة للمطورين.

وفي الوقت نفسه، أعلن بيتشاي أن النسخة المحسنة من Gemini 1.5 Pro ستكون متاحة لجميع المطورين في جميع أنحاء العالم، مع توفر إصدار السياق المكون من مليون رمز الآن للمستهلكين مباشرة في Gemini Advanced، والذي يتوفر بـ 35 لغة.

وبالإضافة إلى ذلك، قال بيتشاي أيضًا إن Gemini 1.5 Pro تم تعزيزه في الأشهر القليلة الماضية من خلال خوارزميات محسنة، مع تحسينات كبيرة في توليد التعليمات البرمجية، والتفكير المنطقي والتخطيط، والحوار متعدد الجولات، وفهم الصوت والصورة. في Gemini API وAI Studio، بالإضافة إلى الصور ومقاطع الفيديو،يمكن لجهاز Gemini 1.5 Pro أيضًا استنتاج الصوت وتوجيهه من خلال ميزة تسمى أوامر النظام.

وفي وقت لاحق، قدم بيتشاي أيضًا تحديثات Gemini في Google Workspace، بما في ذلك ترقية Gemini في Gmail وDocs وDrive وSlides وSheets إلى Gemini 1.5 Pro، وأطلق تطبيق Gmail للجوال ميزات جديدة (رسائل البريد الإلكتروني الموجزة، والردود الذكية السياقية، وGmail Q&A)، ويدعم "ساعدني في الكتابة" الكتابة متعددة الأصوات.

Gemini 1.5 Flash: مليون رمز، سياق طويل للغاية، متعدد الوسائط

عندما ظن الجميع أن تحديث Gemini 1.5 كان "مجرد ذلك"، ظهر الرئيس التنفيذي لشركة DeepMind، ديميس هاسابيس، ببطء وأحضر المفاجأة الأولى في ذلك اليوم - Gemini 1.5 Flash.

على وجه التحديد، يعد الطراز خفيف الوزن Gemini 1.5 Flash نسخة محسنة من Gemini 1.5 Pro، تم تحسينها للمهام واسعة النطاق ذات الحجم والتردد العالي، والخدمات الأكثر فعالية من حيث التكلفة، ونافذة السياق الطويلة الرائدة. في نفس الوقت،يعد برنامج Gemini 1.5 Flash، مثل برنامج Gemini 1.5 Pro، متعدد الوسائط، وهذا يعني أنه يمكنه تحليل الصوت والفيديو والصور بالإضافة إلى النص.

وقال ديميس هاسابيس إن برنامج Gemini 1.5 Flash يتميز بالتفوق في مهام مثل التلخيص وتطبيقات الدردشة وإضافة ترجمات الصور والفيديو واستخراج البيانات من المستندات والجداول الطويلة. ويرجع ذلك إلى أن برنامج Gemini 1.5 Pro قام بتدريبه من خلال التقطير، ونقل المعرفة والمهارات الأساسية من نموذج أكبر إلى نموذج أصغر وأكثر كفاءة.

بالإضافة إلى ذلك، قدم ديميس هاسابيس أيضًا تحديثات حول جيما. أعلنت شركة جوجل عن إطلاق الجيل الجديد من نموذج ابتكار الذكاء الاصطناعي المفتوح Gemma 2، والذي يعتمد على بنية جديدة لتحقيق أداء وكفاءة متطورة، وسيتم إطلاق أحجام جديدة عند إطلاقه رسميًا في يونيو.

مشروع أسترا: وكيل الذكاء الاصطناعي متعدد الوسائط في الوقت الفعلي

من بين الاكتشافات والتكهنات قبل افتتاح مؤتمر Google I/O، كان AI Assistant Pixie متوقعًا للغاية. وقالت بعض وسائل الإعلام إن من المتوقع أن تطلق جوجل مساعدًا جديدًا للذكاء الاصطناعي Pixel مدعومًا بنظام Gemini، ويسمى Pixie، والذي قد يتمتع بقدرات متعددة الوسائط ويمكنه تقديم خدمات أكثر تخصيصًا من خلال المعلومات الموجودة على جهاز المستخدم، مثل الخرائط أو Gmail.

ولكن Pixie لم يظهر كما كان متوقعًا، وتم استبداله بـ Project Astra، الذي يتمتع بالقدرة على الفهم المتعدد الوسائط والقدرات على المحادثة في الوقت الفعلي.

وقال ديميس هاسابيس إن جوجل حققت تقدماً مشجعاً في تطوير أنظمة الذكاء الاصطناعي القادرة على فهم المعلومات المتعددة الوسائط.لكن تقصير أوقات الاستجابة إلى الحد الذي يسمح بإجراء محادثات في الوقت الفعلي يعد أمرا صعبا.على مدى السنوات القليلة الماضية، عمل الفريق بجد لتحسين الطريقة التي يدرك بها النموذج الأشياء، ويفكر فيها، ويتحدث بها، مما يجعل إيقاع وجودة التفاعلات تبدو أكثر طبيعية.

حاليًا، قام الفريق بتطوير وكلاء نموذجيين يعتمدون على Gemini، مما يعمل على تسريع معالجة المعلومات من خلال تشفير إطارات الفيديو بشكل مستمر، ودمج إدخال الفيديو والصوت في جدول زمني للحدث، وتخزين هذه المعلومات مؤقتًا لإجراء مكالمة فعالة.

في نفس الوقت،استخدمت Google نماذج الكلام الخاصة بها لتعزيز صوت الوكيل للحصول على نطاق أوسع من النغمات.يتيح هذا الحصول على استجابات سريعة في المحادثات بعد تحديد سياق الاستخدام.

لا يسع هذا إلا أن يذكر الناس بالإصدار الجديد من ChatGPT الذي عرضته OpenAI في وقت مبكر من صباح أمس. إنها أيضًا محادثة في الوقت الفعلي ويمكنها تغيير النغمة وفقًا للموقف أو طلب المستخدم. على عكس عرض الفيديو الخاص بـ Google، تم اختبار ChatGPT مباشرة على الموقع وأجاب على العديد من الأسئلة الشائعة عبر الإنترنت. اليوم، أصبح ChatGPT المستند إلى GPT-4o مفتوحًا لجميع المستخدمين مجانًا، ولكن لم يتم إطلاق وظائف الصوت والفيديو بعد بسبب مخاوف تتعلق بالخصوصية.

Veo وImagen 3: فيديو + صورة

أطلقت شركة جوجل أيضًا أحدث طراز لتوليد الفيديو Veo ونموذج Imagen 3 عالي الجودة لتحويل النص إلى صورة.

في،Veo هو أقوى نموذج لإنشاء الفيديو من Google.لا أعلم إذا كان مصممًا للتنافس مع سورا.

يمكن لبرنامج Veo إنشاء مقاطع فيديو بدقة 1080 بكسل في مجموعة متنوعة من الأنماط السينمائية والبصرية، مع أطوال فيديو تزيد عن دقيقة. وقالت جوجل إنه بفضل فهمها العميق للغة الطبيعية والدلالات البصرية، فإن مقاطع الفيديو التي تنتجها قادرة على عرض أفكار المستخدم الإبداعية بشكل مثالي، والتقاط نغمة المطالبات بدقة وتقديم التفاصيل في مطالبات أطول.

في الوقت نفسه، فإن اللقطات التي ينشئها Veo متسقة ومتماسكة، وبالتالي فإن حركة الأشخاص والحيوانات والأشياء طوال التصوير تبدو أكثر واقعية.

على المستوى التقني، يعتمد Veo على سنوات عديدة من الخبرة التي اكتسبتها Google في إنشاء نماذج الفيديو، ودمج GQN، وDVD-GAN، وImagen-Video، وPhenaki، وWALT، وVideoPoet، وLumiere، والجمع بين الهندسة المعمارية وقواعد التوسع وغيرها من التقنيات لتحسين الجودة ودقة الإخراج.

وبالمثل، يعد Imagen 3 نموذج تحويل النص إلى صورة الأعلى جودة من Google.القدرة على فهم اللغة الطبيعية بشكل أفضل والغرض وراء المطالبات، ودمج التفاصيل الصغيرة في المطالبات الأطول،ويساعد هذا الفهم الرفيع المستوى أيضًا النموذج على استيعاب مجموعة متنوعة من الأساليب.

نظرة عامة على الذكاء الاصطناعي: عصر النماذج الكبيرة في بحث جوجل

منذ 25 عامًا، وُلد بحث Google لمساعدة الأشخاص على فهم المعلومات المعقدة الموجودة على الإنترنت بشكل أفضل. يمكن للأشخاص البحث عن إجابات لأسئلة مختلفة على هذا المحرك. اليوم، أدى ظهور الجوزاء إلى دفع بحث جوجل إلى مستوى جديد، وإعادة تعريف الطريقة التي يكتسب بها الناس المعرفة والإجابة على الأسئلة.

وردت جوجل في المؤتمر قائلة: "مهما كان ما يدور في ذهنك، ومهما كان ما تحتاج إلى إنجازه، فقط اسأل، وسوف يقوم جوجل بالبحث عنك".

تحتوي Google على أكثر من تريليون قطعة من المعلومات في الوقت الفعلي حول الأشخاص والأماكن والأشياء، جنبًا إلى جنب مع نظام الجودة الموثوق به، لتزويد المستخدمين بأفضل محتوى على الويب. يؤدي إضافة Gemini إلى فتح المزيد من إمكانيات الوكيل الجديدة في البحث وتوسيع إمكانيات بحث Google.

ومن بينها، فإن الأكثر إثارة للقلق هو إطلاق وظيفة AI Overviews. بفضل "نظرة عامة على الذكاء الاصطناعي"، يمكن للمستخدمين طرح سؤال دون الحاجة إلى تجميع المعلومات بأنفسهم. سيمنحك بحث جوجل نظرة عامة على المعلومات، تتضمن وجهات نظر متعددة وروابط لاستكشاف أعمق.

وقالت ليز ريد، نائبة رئيس قسم البحث في جوجل، في المؤتمر: "ستكون خدمة AI Overviews متاحة للجميع في الولايات المتحدة بدءًا من اليوم، ومن المتوقع أنه بحلول نهاية هذا العام، ستخدم خدمة AI Overviews أكثر من مليار مستخدم لبحث جوجل في جميع أنحاء العالم".

في الواقع، هذه مجرد خطوة أولى. نحن نعمل على جعل نظرة عامة على الذكاء الاصطناعي تُحل مشاكل أكثر تعقيدًا. ولجعل ذلك ممكنًا،لقد قمنا بتقديم التفكير المتعدد الخطوات في بحث Google. "

بمصطلحات بسيطة، فإن التفكير متعدد الخطوات يتعلق بتقسيم مشكلة المستخدم الكلية إلى أجزائها وتحديد المشكلات التي تحتاج إلى حل وبأي ترتيب، ثم،يستخدم بحث Google أفضل المعلومات للتفكير في الأسئلة استنادًا إلى المعلومات والتصنيفات في الوقت الفعلي.

على سبيل المثال، عندما يسأل المستخدم عن موقع ما، سيستجيب بحث Google استنادًا إلى معلومات واقعية، بما في ذلك أكثر من 250 مليون مكان، بالإضافة إلى تقييماتها ومراجعاتها وساعات عملها وما إلى ذلك. قد يستغرق البحث عن هذه المعلومات من المستخدمين دقائق أو حتى وقتًا أطول، ولكن يمكن لبحث Google إكماله في ثوانٍ.

بالإضافة إلى توفير استرجاع المعلومات الأساسية، يمكن لـ Google Search أيضًا تنفيذ مهام التفكير والتخطيط المنطقي المتقدمة لمساعدة المستخدمين في التخطيط للأنشطة مثل تناول الطعام والسفر والحفلات والمواعدة وممارسة الرياضة وما إلى ذلك، مما يجعل حياة المستخدمين أسهل.

أخيرا،بالنسبة للأسئلة التي لا يمكن التعبير عنها بدقة باستخدام النص أو الصور، فقد قدمت Google أيضًا حلاً - سيتم إطلاق وظيفة سؤال الفيديو قريبًا.وهذا يعني أن واجهة بحث جوجل ستصبح أكثر تنوعًا في المستقبل.

تريليوم: أداء حوسبة أعلى بمقدار 4.7 مرة لكل شريحة

وبحسب وكالة رويترز، فإن حصة Nvidia في سوق شرائح مراكز بيانات الذكاء الاصطناعي تبلغ حوالي 80% من حصة السوق، أما الـ 20% المتبقية فهي في الغالب إصدارات مختلفة من Google TPU. ومع ذلك، فإن شركة جوجل نفسها لا تبيع الرقائق، بل تؤجرها من خلال منصة الحوسبة السحابية الخاصة بها.

وباعتبارها أحد أهم أعمال الشركة، يبدو أن الإعلان عن الجيل الجديد من TPU أصبح تقليدًا في مؤتمر Google I/O. أصدر بيتشاي اليوم الجيل السادس من TPU Trillium من جوجل، ووصفه بأنه أفضل TPU أداءً وأكثرها كفاءة من الشركة حتى الآن.بالمقارنة مع الجيل السابق من TPU v5e، تم تحسين أداء الحوسبة لكل شريحة بمقدار 4.7 مرة.ووعدت أيضًا بإتاحة Trillium لعملاء السحابة بحلول نهاية عام 2024.

وبحسب موقع Tech Crunch، فقد نجحت جوجل في تحقيق هذا التعزيز في الأداء جزئيًا من خلال تكبير وحدة ضرب المصفوفة (MXU) الخاصة بالشريحة وزيادة سرعة الساعة الإجمالية. علاوة على ذلك، قامت جوجل بمضاعفة نطاق الذاكرة لشريحة Trillium.

وأضاف بيتشاي أيضًا أن الشركة أطلقت معالج Axion الجديد الشهر الماضي، وهو أول وحدة معالجة مركزية مخصصة تعتمد على Arm من Google مع أداء وكفاءة في استخدام الطاقة رائدين في الصناعة.

وفي وقت لاحق، أعلن بيتشاي أيضًا أن جوجل ستتعاون مع إنفيديا وستطلق شريحة بلاكويل بالتعاون مع إنفيديا في عام 2025.

الذكاء الاصطناعي للعلوم: قد يكون AlphaFold 3 مفتوح المصدر

قال مؤسس شركة DeepMind، ديميس هاسابيس: "لقد أسسنا DeepMind لاستكشاف ما إذا كانت أجهزة الكمبيوتر قادرة على التفكير مثل البشر وبناء الذكاء الاصطناعي العام".

عند النظر إلى الإنجازات السابقة، من RT-2 الذي يحول الرؤية واللغة إلى تصرفات الروبوت، إلى SIMA، وهو وكيل الذكاء الاصطناعي للألعاب الذي يمكنه اتباع تعليمات اللغة الطبيعية لأداء المهام في بيئات ألعاب الفيديو المختلفة، إلى AIphaGeometry الذي يمكنه حل المشكلات الرياضية على مستوى الأولمبياد، وحتى GNoME الذي يكتشف مواد جديدة. قال ديميس هاسابيس: "لطالما اعتقدت أنه إذا قمنا ببناء الذكاء الاصطناعي العام بطريقة مسؤولة، فسوف يعود بالنفع على البشرية بطرق لا تصدق".

وبالإضافة إلى ذلك، سلط ديميس هاسابيس الضوء في الاجتماع أيضًا على برنامج AlphaFold 3 الذي تم إطلاقه مؤخرًا، والذي تنبأ بنجاح ببنية وتفاعلات جميع جزيئات الحياة (البروتينات، والحمض النووي، والحمض النووي الريبوزي، والربيطة، وما إلى ذلك) بدقة غير مسبوقة، وحقق اختراقات كبيرة في محاكاة العديد من أنواع التفاعلات الجزيئية المختلفة، وهو أمر بالغ الأهمية لمشاريع البحث والتطوير مثل تحديد أهداف الأدوية بدقة.

في الواقع، عندما تم إصدار AlphaFold 3 لأول مرة، لم تكن لدى Google أي خطط لجعل الكود الكامل الخاص به مفتوح المصدر. لقد تم إصدار واجهة عامة لخادم AlphaFold فقط لدعم الأبحاث غير التجارية للنموذج، مما فتح الباب أمام الباحثين في جميع أنحاء العالم.

ومع ذلك، قبل أقل من أسبوع من الإصدار، أعلن نائب رئيس الأبحاث في Google DeepMind فجأة: "سنقوم بإصدار نموذج AF3 (بما في ذلك الأوزان) خلال 6 أشهر للاستخدام الأكاديمي!" أعلنت شركة جوجل فجأة عن هذه الخطة مفتوحة المصدر في اليوم السابق لمؤتمر I/O. سواء كان ذلك بسبب الضغط من OpenAI أو لبناء الزخم للمؤتمر، فإن المصدر المفتوح لـ AlphaFold 3 له أهمية بعيدة المدى لتطوير مجال الحياة والصحة.

وفي المستقبل القريب، سوف يتتبع HyperAI أيضًا أحدث تصميم لبرنامج Google AI for Science. للمهتمين، يمكنهم متابعة الحساب الرسمي وانتظار التقارير المفصلة!

الكلمات الأخيرة

في هذه المرحلة، انتهى كرنفال الذكاء الاصطناعي الذي استمر لمدة يومين. لكن المعركة بين OpenAI وGoogle لن تتوقف - أين سقف الأداء لـ GPT-5؟ هل يمكن كسر حد السياق الطويل جدًا لـ Gemini مرة أخرى؟ هل يتحدى محرك البحث OpenAI موقع Google؟

علق جيم فان، عالم إنفيديا، قائلاً: "جوجل تُحسن التصرف في أمر واحد: إنها تعمل جاهدةً أخيرًا على دمج الذكاء الاصطناعي في مربع البحث. أشعر أن الوكيل: التخطيط، والتصفح الفوري، والإدخال متعدد الوسائط، كل ذلك من صفحة الوصول. أقوى ما يميز جوجل هو التوزيع. ليس بالضرورة أن يكون جيميني هو النموذج الأفضل، بل قد يكون أيضًا النموذج الأكثر استخدامًا في العالم."

في الواقع، عند النظر إلى المؤتمر الصحفي بأكمله، فإن شعوري الأكبر هو أن "في عصر النماذج الكبيرة، قد يظل البحث هو مصدر الثقة الأعظم لجوجل".

Command Palette

لقد وصل عصر Google Gemini! تعزيز خندق البحث وتمكين العائلة بأكملها، تم ترقية Gemini 1.5 Pro إلى 2 مليون رمز