الملخص

يقدم هذا البحث نموذج PaLI-3، وهو نموذج لغة ورؤية (VLM) أصغر وأسرع وأقوى يتفوق بشكل ملائم على نماذج مشابهة أكبر بعشرة أضعاف. كجزء من الوصول إلى هذه الأداء القوي، قمنا بمقارنة نماذج Vision Transformer (ViT) التي تم تدريبها باستخدام أهداف التصنيف مع تلك التي تم تدريبها بشكل تناقض (SigLIP). وجدنا أن، رغم أدائها الأقل قليلاً في مقاييس التصنيف القياسي للصور، فإن النموذج PaLI المستند إلى SigLIP يظهر أداءً أفضل عبر مختلف مقاييس الوسائط المتعددة، وخاصة في تحديد المواقع والفهم النصي المرتبط بصرياً. قمنا بتوسيع مُشفِّر الصور SigLIP حتى يصل إلى ملياري معلمة، مما حقق مستوى جديدًا من الطليعة في استرجاع الوسائط المتعددة متعدد اللغات. نأمل أن يعيد PaLI-3، الذي يحتوي على 5 مليارات معلمة فقط، إحياء البحث حول العناصر الأساسية للنماذج المعقدة VLM، وأن يدفع نحو جيل جديد من النماذج الموسعة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار