HyperAI
Back to Headlines

GOOGLE تكشف عن تقنية التجشؤ في لُغات البرمجة: كيف يمكن لمجموعات البيانات المتعددة تحسين سرعة وتوفيقية المعرفة اللغوية

منذ 25 أيام

ملخص: لماذا قد يعيد نهج التفتيت من جوجل تشكيل نشر نماذج اللغات الكبيرة التاريخ: 13 يونيو 2025 الشركة: جوجل ديپمايند الفرق بين التفتيت والانحدار الذاتي في شهر مايو الماضي، كشفت جوجل ديپمايند عن نموذج Gemini Diffusion، وهو نموذج بحثي تجريبي يستخدم نهج التفتيت لإنشاء النصوص. تقليديًا، تعتمد النماذج اللغوية الكبيرة (LLMs) مثل GPT و Gemini نفسها على الانحدار الذاتي، وهو نهج تتابعي حيث يتم توليد كل كلمة بناءً على الكلمة السابقة. ومع ذلك، فإن نماذج التفتيت (DLMs) تبدأ بالضوضاء العشوائية وتقوم بتصحيحها تدريجيًا حتى تصبح متناسقة ومقروءة. هذا الأسلوب يمكن أن يزيد من سرعة التوليد ويحسن التوافق والاتساق. كيفية عمل توليد النصوص بالتفتيت خلال التدريب، تعمل النماذج اللغوية بالتفتيت عن طريق تدمير جملة تدريجيًا بإضافة ضوضاء عبر خطوات متعددة حتى تصبح الجملة غير مميزة تمامًا. ثم يتم تدريب النموذج على عكس هذا العملية خطوة بخطوة، حيث يتعلم كيف يمكنه "تصحيح" الجملة المدمَّرة واستعادة هيكلها الأصلي. يتم تكرار هذا العملية ملايين المرات مع عينات متنوعة ومستويات ضوضاء مختلفة، مما يمكّن النموذج من تعلم وظيفة تصحيح موثوقة. عندما يتم تدريب النموذج، يصبح قادرًا على إنشاء جمل جديدة تمامًا. تتطلب النماذج اللغوية بالتفتيت عادةً شرطًا أو مدخلًا، مثل دعوة أو تصنيف أو تجسيد، لتوجيه التوليد نحو النتائج المرغوبة. يُحقن هذا الشرط في كل خطوة من عملية التصحيح، مما يشكل كتلة الضوضاء العشوائية إلى نص منظم ومتناسق. مزايا وعيوب نماذج التفتيت في مقابلة مع موقع VentureBeat، أوضح Brendan O’Donoghue، عالم بحث في جوجل ديپمايند وواحد من القائمين على مشروع Gemini Diffusion، بعض المزايا والعيوب لنماذج التفتيت مقارنة بالانحدار الذاتي: المزايا: - زيادة سرعة التوليد: يمكن لنماذج التفتيت توليد ما بين 1,000 إلى 2,000 رمز في الثانية، مقارنة بـ 272.4 رمز في الثانية لـ Gemini 2.5 Flash. - تصحيح الأخطاء أثناء عملية التصحيح، مما يحسن الدقة ويقلل من الأوهام. العيوب: - زيادة تكلفة الخدمة والوقت المستغرق للحصول على أول رمز، حيث يمكن للنماذج الانحدارية إنتاج أول رمز فورًا، بينما يجب أن تكون سلسلة الرموز جاهزة قبل ظهور أول رمز في نماذج التفتيت. مقاييس الأداء وفقًا لجوجل، يعتبر أداء Gemini Diffusion مماثلًا لـ Gemini 2.0 Flash-Lite في العديد من المقاييس. تم مقارنة النموذجين باستخدام عدة مقاييس، مع تقييم النتائج على أساس عدد المرات التي أنتج فيها النموذج الإجابة الصحيحة في المحاولة الأولى. أظهرت النتائج أن Gemini Diffusion أظهرت أداءً جيدًا في اختبارات البرمجة والرياضيات، بينما كان Gemini 2.0 Flash-Lite أفضل في التفكير العلمي والمعارف متعددة اللغات. | المقاييس | Gemini Diffusion | Gemini 2.0 Flash-Lite | |----------|------------------|----------------------| | LiveCodeBench (v6) | 30.9% | 28.5% | | BigCodeBench | 45.4% | 45.8% | | LBPP (v2) | 56.8% | 56.0% | | SWE-Bench Verified* | 22.9% | 28.5% | | HumanEval | 89.6% | 90.2% | | MBPP | 76.0% | 75.8% | | GPQA Diamond | 40.4% | 56.5% | | AIME 2025 | 23.3% | 20.0% | | BIG-Bench Extra Hard | 15.0% | 21.0% | | Global MMLU (Lite) | 69.1% | 79.0% | تقييم غير وكيل (تعديل واحد فقط)، طول الدعوة الأقصى 32K. اختبارات Gemini Diffusion منحت VentureBeat حق الوصول إلى النموذج التجريبي لـ Gemini Diffusion. عند اختباره، لاحظنا سرعته الفائقة. عند تشغيل الدعوات المقترحة من جوجل، بما في ذلك بناء تطبيقات HTML تفاعلية مثل Xylophone و Planet Tac Toe، اكتملت كل طلب في أقل من ثلاث ثوانٍ، بمعدلات توليد تتراوح بين 600 إلى 1,300 رمز في الثانية. لاختبار أدائه في تطبيق حقيقي، طلبنا منه بناء واجهة لتطبيق الدردشة المرئية باستخدام الدعوة التالية: "قم بإنشاء واجهة لتطبيق دردشة مرئية. يجب أن تحتوي على نافذة معاينة تصل إلى الكاميرا في جهازي وتعرض إخراجها. كما يجب أن تحتوي على مقياس مستوى الصوت يقيس الإخراج من الميكروفون في جهازي في الوقت الحقيقي." في أقل من ثانيتين، أنشأ Gemini Diffusion واجهة تعمل بشكل صحيح مع معاينة الفيديو ومقياس الصوت. رغم أنها لم تكن تطبيقًا معقدًا، إلا أنها يمكن أن تكون بداية لنموذج أولي يمكن إكماله بمزيد من الدعوات. يجب ملاحظة أن Gemini 2.5 Flash أيضًا أنتج واجهة تعمل بشكل صحيح، ولكن بمعدل أبطأ قليلاً (حوالي سبع ثوانٍ). تطبيقات الشركات لنماذج اللغات الكبيرة يمكن القول أن أي تطبيق يتطلب رد فعل سريعًا سيستفيد من تقنية DLMs. هذا يشمل التطبيقات في الوقت الحقيقي وذات زمن الاستجابة القصير، مثل الذكاء الاصطناعي التفاعلي والدردشات الآلية، الترجمة الفورية، أو المساعدات البرمجية في البيئات التطويرية (IDE). حسبما أشار O’Donoghue، فإن النماذج بالتفتيت مطبقة في مهام مثل التعديل المباشر للنصوص، مثل تغيير جزء من النص في مكانه، وهي ميزة لا تتوفر في النماذج الانحدارية. كما أن النماذج بالتفتيت لها ميزة في مسائل التفكير المنطقي والرياضيات والبرمجة بسبب الاهتمام البيني المكتسب من خلال الانتباه الثنائي. آفاق المستقبل رغم أن نماذج DLMs لا تزال في مراحلها الأولى، إلا أن هذه التقنية لديها القدرة على تحويل كيفية بناء النماذج اللغوية. ليس فقط بسبب زيادة سرعة التوليد، بل أيضًا بسبب قدرتها على العودة وتصحيح الأخطاء، مما يعني أن النتائج قد تكون أكثر دقة في النهاية. يدخل Gemini Diffusion في نظام بيئي نامي من نماذج DLMs، بضمنها Mercury من مختبرات Inception و LLaDa النموذج المفتوح المصدر من GSAI. معًا، تعكس هذه النماذج الزخم الأوسع خلف التوليد اللغوي بالتفتيت وتقدم بديلًا قابلًا للتوسع والعمل بشكل متوازي للهياكل الانحدارية التقليدية. تقييم الحدث من قبل المختصين يؤكد Brendan O’Donoghue أن الفجوة بين نماذج التفتيت والانحدار الذاتي "مغلقة بشكل أساسي في الأداء بمقياس المقاييس، على الأقل في الأحجام النسبية التي وصلنا إليها." ومع ذلك، قد تتفوق نماذج التفتيت في مجالات تحتاج إلى توافق غير محلي، مثل البرمجة والتفكير المنطقي. نبذة عن جوجل ديپمايند جوجل ديپمايند هي شركة تابعة لجوجل متخصصة في البحث والتطوير في مجال الذكاء الاصطناعي. أسست عام 2010 وانضمت إلى جوجل في عام 2014. تُركز ديپمايند على تطوير نماذج وتقنيات مبتكرة تهدف إلى تحسين الأداء والكفاءة في مجموعة واسعة من التطبيقات، من الروبوتات الذكية إلى النماذج اللغوية الكبيرة. إن Gemini Diffusion هو أحدث إنجازاتها في هذا المجال، وقد يفتح الباب أمام تطورات مستقبلية كبيرة في تكنولوجيا الذكاء الاصطناعي.

Related Links