HyperAIHyperAI
منذ 2 أشهر

PaLI: نموذج متعدد اللغات مشترك للصورة واللغة

Xi Chen; Xiao Wang; Soravit Changpinyo; AJ Piergiovanni; Piotr Padlewski; Daniel Salz; Sebastian Goodman; Adam Grycner; Basil Mustafa; Lucas Beyer; Alexander Kolesnikov; Joan Puigcerver; Nan Ding; Keran Rong; Hassan Akbari; Gaurav Mishra; Linting Xue; Ashish Thapliyal; James Bradbury; Weicheng Kuo; Mojtaba Seyedhosseini; Chao Jia; Burcu Karagol Ayan; Carlos Riquelme; Andreas Steiner; Anelia Angelova; Xiaohua Zhai; Neil Houlsby; Radu Soricut
PaLI: نموذج متعدد اللغات مشترك للصورة واللغة
الملخص

التوسع الفعال وواجهة المهام المرنة تمكن النماذج اللغوية الكبيرة من التفوق في العديد من المهام. نقدم هنا نموذج PaLI (نموذج اللغة والصورة Pathways Language and Image)، وهو نموذج يوسع هذا النهج ليشمل النمذجة المشتركة للغة والرؤية. يقوم PaLI بإنشاء النص بناءً على المدخلات البصرية والنصية، ويقوم بهذه الواجهة بتنفيذ العديد من المهام البصرية واللغوية والمودالية المتعددة، وبالعديد من اللغات. لتدريب PaLI، نستفيد من النماذج اللغوية الكبيرة مسبقة التدريب والمُشفرة-المُفكِّرة (Encoder-Decoder) وأجهزة تحويل الرؤية (Vision Transformers - ViTs). هذا يتيح لنا الاستفادة من قدراتهم الحالية واستغلال التكلفة العالية لتدريبها. وقد اكتشفنا أن التوسع المشترك للمكونات البصرية واللغوية مهم للغاية. نظرًا لأن أجهزة تحويل الرؤية الموجودة حاليًا أصغر بكثير من نظيراتها اللغوية، فقد قمنا بتدريب جهاز تحويل رؤية كبير يحتوي على 4 مليارات معلمة (ViT-e) لتقييم الفوائد التي يمكن الحصول عليها من نماذج رؤية ذات سعة أكبر. لتدريب PaLI، قمنا بإنشاء خليط متعدد اللغات كبير من مهام التدريب الأولي، استنادًا إلى مجموعة تدريب جديدة تحتوي على 10 مليار صورة ونصوص بأكثر من 100 لغة. حقق PaLI أفضل الأداء في العديد من المهام البصرية واللغوية (مثل إضافة التعليقات الصوتية، والإجابة على الأسئلة البصرية، وفهم النصوص في المشاهد)، مع الحفاظ على تصميم بسيط ومُجزَأ وقابل للتوسع.

PaLI: نموذج متعدد اللغات مشترك للصورة واللغة | أحدث الأوراق البحثية | HyperAI