Command Palette
Search for a command to run...
نماذج الرؤية واللغة PaLI-3: أصغر، أسرع، أقوى
نماذج الرؤية واللغة PaLI-3: أصغر، أسرع، أقوى
Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†
الملخص
يقدم هذا البحث نموذج PaLI-3، وهو نموذج لغة ورؤية (VLM) أصغر وأسرع وأقوى يتفوق بشكل ملائم على نماذج مشابهة أكبر بعشرة أضعاف. كجزء من الوصول إلى هذه الأداء القوي، قمنا بمقارنة نماذج Vision Transformer (ViT) التي تم تدريبها باستخدام أهداف التصنيف مع تلك التي تم تدريبها بشكل تناقض (SigLIP). وجدنا أن، رغم أدائها الأقل قليلاً في مقاييس التصنيف القياسي للصور، فإن النموذج PaLI المستند إلى SigLIP يظهر أداءً أفضل عبر مختلف مقاييس الوسائط المتعددة، وخاصة في تحديد المواقع والفهم النصي المرتبط بصرياً. قمنا بتوسيع مُشفِّر الصور SigLIP حتى يصل إلى ملياري معلمة، مما حقق مستوى جديدًا من الطليعة في استرجاع الوسائط المتعددة متعدد اللغات. نأمل أن يعيد PaLI-3، الذي يحتوي على 5 مليارات معلمة فقط، إحياء البحث حول العناصر الأساسية للنماذج المعقدة VLM، وأن يدفع نحو جيل جديد من النماذج الموسعة.