HyperAIHyperAI
منذ 17 أيام

التدريب المسبق المتعدد الوسائط التلقائي للنماذج البصرية الكبيرة المُشفّرة

Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
التدريب المسبق المتعدد الوسائط التلقائي للنماذج البصرية الكبيرة المُشفّرة
الملخص

نقدّم طريقة جديدة لتدريب النماذج الكبيرة للرؤية مسبقًا.مستندين إلى التطورات الحديثة في تدريب النماذج البصرية بشكل تسلسلي (autoregressive)، نوسع هذا الإطار إلى بيئة متعددة الوسائط، أي الصور والنص. في هذه الورقة، نقدّم AIMV2، وهي عائلة من مُشفّرات الرؤية الشاملة، تتميز بعملية تدريب مسبق بسيطة، وقابلية التوسع، وأداء متميز عبر مجموعة واسعة من المهام اللاحقة. يتم تحقيق ذلك من خلال ربط مُشفّر الرؤية بمحDecoder متعدد الوسائط يقوم بتوليد قطع الصورة الخام ورموز النص بشكل تسلسلي. تتفوّق مُشفّراتنا ليس فقط في التقييمات متعددة الوسائط، بل أيضًا في معايير الرؤية مثل التوصيف المكاني، التوصيف المرجعي، والتصنيف. وبشكل لافت، حقق مُشفّر AIMV2-3B دقة قدرها 89.5٪ على ImageNet-1k باستخدام جذع مجمّد. علاوةً على ذلك، يتفوّق AIMV2 باستمرار على النماذج التقابلية الرائدة (مثل CLIP وSigLIP) في فهم الصور متعددة الوسائط عبر مجموعات بيئة متنوعة.