Command Palette
Search for a command to run...
جيميني 1.5: فتح فهم متعدد الأوضاع عبر ملايين الرموز السياقية
جيميني 1.5: فتح فهم متعدد الأوضاع عبر ملايين الرموز السياقية
Gemini Team Google
الملخص
في هذا التقرير، نقدم عائلة نماذج جيميني 1.5، والتي تمثل الجيل التالي من النماذج متعددة الوسائط ذات الكفاءة الحاسوبية العالية، قادرة على استرجاع وتحليل المعلومات الدقيقة من ملايين الرموز السياقية، بما في ذلك عدة وثائق طويلة وساعات من الفيديو والصوت. تشمل هذه العائلة نموذجين جديدين: (1) جيميني 1.5 برو المحدث، والذي يتفوق على الإصدار فبراير في معظم القدرات والمعايير؛ (2) جيميني 1.5 فلاش، وهي نسخة أخف وزناً صُممت للكفاءة مع انحدار ضئيل في الجودة.تبلغ نماذج جيميني 1.5 درجة قريبة من الكمال في استرجاع المعلومات في المهام التي تتطلب سياقاً طويلاً عبر الوسائط المختلفة، وتتحسن على مستوى القدرات المتقدمة في أسئلة الإجابة عن الوثائق الطويلة وأسئلة الفيديو الطويل وأتمتة التعرف على الكلام في السياقات الطويلة (ASR)، كما تتطابق أو تتفوق على أداء جيميني 1.0 أولترا المتقدم عبر مجموعة واسعة من المعايير.عند دراسة حدود قدرات جيميني 1.5 على التعامل مع السياقات الطويلة، نجد أن هناك تحسيناً مستمراً في التنبؤ بالرمز التالي واسترجاعاً قريباً من الكمال (>99%) حتى ما لا يقل عن 10 ملايين رمز، وهو قفزة تقنية كبيرة مقارنة بالنماذج الموجودة حالياً مثل كلود 3.0 (200 ألف) وجيت-بي-تي-4 توربو (128 ألف).أخيراً، نسلط الضوء على بعض الاستخدامات العملية لـ جيميني 1.5، مثل التعاون مع المحترفين لإكمال مهامهم مما يؤدي إلى توفير وقت بنسبة تتراوح بين 26% و75% عبر عشر فئات مختلفة من الوظائف، بالإضافة إلى قدرات جديدة مدهشة للنماذج اللغوية الكبيرة عند الحد الأمامي؛ حيث يتمكن النموذج من تعلم ترجمة اللغة الإنجليزية إلى اللغة كالامانغ (Kalamang)، وهي لغة يتحدث بها أقل من 200 شخص حول العالم، بمعدل مشابه لشخص تعلم من نفس المحتوى.