برنامج تعليمي عبر الإنترنت | حاسوب محمول بسعة 16 جيجابايت يحقق أداءً يقارب 26 مليار نقطة في البوصة: معالج Gemma 4 12B يعتمد على بنية مبتكرة لمعالجة موحدة للنصوص والصور والصوت

منذ 2 أشهر

معلومة

إيجرنت

في حين أن المنافسة على النماذج الكبيرة لا تزال تركز على حجم المعلمات، فقد أثبتت جوجل ديب مايند مرة أخرى أن تحسينات الأداء لا تعتمد بالضرورة على النماذج الأكبر حجماً فقط.

أطلقت جوجل ديب مايند مؤخرًا رسميًا أحدث عضو في عائلة جيما 4، وهو جيما 4 12B. يُعد هذا النموذج متعدد الوسائط نموذجًا موحدًا يحتوي على 12 مليار مُعامل فقط، ومع ذلك، فقد أظهر أداءً يقارب أداء نموذج خبير هجين (MoE) يحتوي على 26 مليار مُعامل في العديد من اختبارات القياس المعيارية. وتشير البيانات الرسمية إلى أن أداء جيما 4 12B في مهام مثل الاستدلال، وتوليد الشفرة، وفهم الوسائط المتعددة، يقترب من أداء جيما 4 26B.وفي الوقت نفسه، يحقق مستوى أحدث التقنيات (SOTA) بين نماذج المصادر المفتوحة الحالية من نفس المستوى في بعض مهام الفهم البصري والوكلاء.والأهم من ذلك، أن هذا النموذج لا يتطلب سوى 16 جيجابايت من ذاكرة الفيديو أو الذاكرة الموحدة للتشغيل الأصلي على أجهزة الكمبيوتر المحمولة المخصصة للمستهلكين، مما يحقق توازنًا نادرًا بين الأداء وتكلفة النشر.

باعتبارها أول نموذج متوسط الحجم في سلسلة Gemma يدعم إدخال الصوت بشكل أصلي، فإن أكبر إنجاز لـ Gemma 4 12B لا يكمن في حجم معلماتِها، بل في ابتكارها المعماري. لفترة طويلة، اعتمدت النماذج متعددة الوسائط بشكل عام نهج "المشفّر + نموذج اللغة": حيث تتم معالجة الصور بواسطة مشفّر مرئي، والصوت بواسطة مشفّر كلام، ثم تُمرر النتائج إلى نموذج لغوي كبير للاستدلال. على الرغم من أن هذه البنية ناضجة،ومع ذلك، فإن هذا يؤدي إلى زيادة العبء الحسابي، واستخدام الذاكرة، وزمن استجابة الاستدلال.

لمعالجة هذه المشكلة، صممت جوجل ديب مايند بنية جديدة تمامًا خالية من المشفرات لـ Gemma 4 12B. يتم تغذية الصور مباشرة إلى العمود الفقري LLM بعد مرورها عبر وحدة تضمين خفيفة الوزن، بينما يتم إسقاط الصوت مباشرة في نفس مساحة التمثيل مثل رموز النص.يقوم نفس المحول الذي يعتمد على وحدة فك التشفير فقط بمعالجة النصوص والصور والأصوات بشكل موحد.يشير البيان الرسمي إلى أن هذا التصميم يقلل بشكل كبير من زمن استجابة الاستدلال متعدد الوسائط مع تقليل تعقيد النظام وحجم الذاكرة المستخدمة.

بالإضافة إلى بنيتها الموحدة متعددة الوسائط، تدعم Gemma 4 12B أيضًا نافذة سياق فائقة الطول بسعة 256 كيلوبايت، ووضع استدلال عميق قابل للتبديل، واستدعاء الوظائف الأصلي، وقدرات سير عمل الوكيل. في المعايير القياسية،أداؤها العام قريب من أداء طراز Gemma 4 26B MoE، الذي يزيد حجمه عن ضعف حجمها.تكلفة التشغيل أقل من نصف تكلفة النظام الآخر. بالنسبة للمطورين الذين يرغبون في نشر قدرات الذكاء الاصطناعي المتقدمة محليًا، فهذا يعني أنه بإمكانهم تحقيق تجربة استدلال وتفاعل مع الوكلاء قريبة من تلك التي توفرها نماذج الوسائط المتعددة المتطورة الحالية، دون الحاجة إلى وحدات معالجة رسومية باهظة الثمن.

حالياً، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) ميزة "النشر بنقرة واحدة لـ Gemma 4 12B-it"، مما يقلل من عتبة النشر في شكل دفتر ملاحظات ويسهل على المطورين التحقق من النماذج بسرعة.

تشغيل عبر الإنترنت:https://go.hyper.ai/1Jrdl

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "النشر بنقرة واحدة لـ Gemma 4 12B-it"، ثم انقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "vLLM"، وانقر فوق "متابعة تنفيذ المهمة".

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بعد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين لفتح واجهة العرض التوضيحي.

ذات صلة الأخبار

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

يدعم إطار عمل توليد الفيديو متعدد الأنماط مفتوح المصدر من Meituan، LongCat 1.5، توليد الفيديو الحي والرسوم المتحركة والفيديو القائم على الحيوانات؛ كما أنه يعزز قدرات إعادة بناء المخططات واستخراج الجداول لمجموعة بيانات VLM ChartNet، التي تدعم ملايين نقاط البيانات.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي عبر الإنترنت | سرعة توليد أسرع تصل إلى 4 مرات: يمكن لـ DiffusionGemma توليد كتل كاملة من النصوص في وقت واحد، مع تحسين مستمر يعتمد على إزالة الضوضاء المتوازية متعددة الجولات.

إخراج الصور بأربع خطوات / جودة 4K / تسريع 6x، يستخدم PiD انتشار البكسل لتوحيد فك التشفير وإخراج الدقة الفائقة؛ SA-3DAO: مجموعة بيانات تحتوي على 1000 زوج من الصور الحقيقية المقترنة بشبكات ثلاثية الأبعاد مصممة يدويًا بواسطة فنانين.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

أصدرت جوجل TabFM-1.0.0-PyTorch: نموذج تنبؤ بدون بيانات تجريبية مصمم للبيانات الجدولية المختلطة؛ وقامت NVIDIA بفتح مصدر مجموعة بيانات الأحرف الاصطناعية متعددة الجنسيات، مع توفر عشرات الملايين من الأحرف.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

HyperAI

برنامج تعليمي عبر الإنترنت | حاسوب محمول بسعة 16 جيجابايت يحقق أداءً يقارب 26 مليار نقطة في البوصة: معالج Gemma 4 12B يعتمد على بنية مبتكرة لمعالجة موحدة للنصوص والصور والصوت

منذ 2 أشهر

تشغيل عبر الإنترنت:https://go.hyper.ai/1Jrdl

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

تشغيل تجريبي

3. حدد صور "NVIDIA RTX 5090" و "vLLM"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بعد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين لفتح واجهة العرض التوضيحي.

ذات صلة الأخبار

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

يدعم إطار عمل توليد الفيديو متعدد الأنماط مفتوح المصدر من Meituan، LongCat 1.5، توليد الفيديو الحي والرسوم المتحركة والفيديو القائم على الحيوانات؛ كما أنه يعزز قدرات إعادة بناء المخططات واستخراج الجداول لمجموعة بيانات VLM ChartNet، التي تدعم ملايين نقاط البيانات.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

برنامج تعليمي عبر الإنترنت | سرعة توليد أسرع تصل إلى 4 مرات: يمكن لـ DiffusionGemma توليد كتل كاملة من النصوص في وقت واحد، مع تحسين مستمر يعتمد على إزالة الضوضاء المتوازية متعددة الجولات.

إخراج الصور بأربع خطوات / جودة 4K / تسريع 6x، يستخدم PiD انتشار البكسل لتوحيد فك التشفير وإخراج الدقة الفائقة؛ SA-3DAO: مجموعة بيانات تحتوي على 1000 زوج من الصور الحقيقية المقترنة بشبكات ثلاثية الأبعاد مصممة يدويًا بواسطة فنانين.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

أصدرت جوجل TabFM-1.0.0-PyTorch: نموذج تنبؤ بدون بيانات تجريبية مصمم للبيانات الجدولية المختلطة؛ وقامت NVIDIA بفتح مصدر مجموعة بيانات الأحرف الاصطناعية متعددة الجنسيات، مع توفر عشرات الملايين من الأحرف.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

Command Palette

تشغيل تجريبي

عرض التأثير

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

ذات صلة الأخبار

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة