HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI: نموذج متعدد اللغات مشترك للصورة واللغة

الملخص

التوسع الفعال وواجهة المهام المرنة تمكن النماذج اللغوية الكبيرة من التفوق في العديد من المهام. نقدم هنا نموذج PaLI (نموذج اللغة والصورة Pathways Language and Image)، وهو نموذج يوسع هذا النهج ليشمل النمذجة المشتركة للغة والرؤية. يقوم PaLI بإنشاء النص بناءً على المدخلات البصرية والنصية، ويقوم بهذه الواجهة بتنفيذ العديد من المهام البصرية واللغوية والمودالية المتعددة، وبالعديد من اللغات. لتدريب PaLI، نستفيد من النماذج اللغوية الكبيرة مسبقة التدريب والمُشفرة-المُفكِّرة (Encoder-Decoder) وأجهزة تحويل الرؤية (Vision Transformers - ViTs). هذا يتيح لنا الاستفادة من قدراتهم الحالية واستغلال التكلفة العالية لتدريبها. وقد اكتشفنا أن التوسع المشترك للمكونات البصرية واللغوية مهم للغاية. نظرًا لأن أجهزة تحويل الرؤية الموجودة حاليًا أصغر بكثير من نظيراتها اللغوية، فقد قمنا بتدريب جهاز تحويل رؤية كبير يحتوي على 4 مليارات معلمة (ViT-e) لتقييم الفوائد التي يمكن الحصول عليها من نماذج رؤية ذات سعة أكبر. لتدريب PaLI، قمنا بإنشاء خليط متعدد اللغات كبير من مهام التدريب الأولي، استنادًا إلى مجموعة تدريب جديدة تحتوي على 10 مليار صورة ونصوص بأكثر من 100 لغة. حقق PaLI أفضل الأداء في العديد من المهام البصرية واللغوية (مثل إضافة التعليقات الصوتية، والإجابة على الأسئلة البصرية، وفهم النصوص في المشاهد)، مع الحفاظ على تصميم بسيط ومُجزَأ وقابل للتوسع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp