نماذج الرؤية واللغة PaLI-3: أصغر، أسرع، أقوى

يقدم هذا البحث نموذج PaLI-3، وهو نموذج لغة ورؤية (VLM) أصغر وأسرع وأقوى يتفوق بشكل ملائم على نماذج مشابهة أكبر بعشرة أضعاف. كجزء من الوصول إلى هذه الأداء القوي، قمنا بمقارنة نماذج Vision Transformer (ViT) التي تم تدريبها باستخدام أهداف التصنيف مع تلك التي تم تدريبها بشكل تناقض (SigLIP). وجدنا أن، رغم أدائها الأقل قليلاً في مقاييس التصنيف القياسي للصور، فإن النموذج PaLI المستند إلى SigLIP يظهر أداءً أفضل عبر مختلف مقاييس الوسائط المتعددة، وخاصة في تحديد المواقع والفهم النصي المرتبط بصرياً. قمنا بتوسيع مُشفِّر الصور SigLIP حتى يصل إلى ملياري معلمة، مما حقق مستوى جديدًا من الطليعة في استرجاع الوسائط المتعددة متعدد اللغات. نأمل أن يعيد PaLI-3، الذي يحتوي على 5 مليارات معلمة فقط، إحياء البحث حول العناصر الأساسية للنماذج المعقدة VLM، وأن يدفع نحو جيل جديد من النماذج الموسعة.