التدريب المسبق المتعدد الوسائط التلقائي للنماذج البصرية الكبيرة المُشفّرة

نقدّم طريقة جديدة لتدريب النماذج الكبيرة للرؤية مسبقًا.مستندين إلى التطورات الحديثة في تدريب النماذج البصرية بشكل تسلسلي (autoregressive)، نوسع هذا الإطار إلى بيئة متعددة الوسائط، أي الصور والنص. في هذه الورقة، نقدّم AIMV2، وهي عائلة من مُشفّرات الرؤية الشاملة، تتميز بعملية تدريب مسبق بسيطة، وقابلية التوسع، وأداء متميز عبر مجموعة واسعة من المهام اللاحقة. يتم تحقيق ذلك من خلال ربط مُشفّر الرؤية بمحDecoder متعدد الوسائط يقوم بتوليد قطع الصورة الخام ورموز النص بشكل تسلسلي. تتفوّق مُشفّراتنا ليس فقط في التقييمات متعددة الوسائط، بل أيضًا في معايير الرؤية مثل التوصيف المكاني، التوصيف المرجعي، والتصنيف. وبشكل لافت، حقق مُشفّر AIMV2-3B دقة قدرها 89.5٪ على ImageNet-1k باستخدام جذع مجمّد. علاوةً على ذلك، يتفوّق AIMV2 باستمرار على النماذج التقابلية الرائدة (مثل CLIP وSigLIP) في فهم الصور متعددة الوسائط عبر مجموعات بيئة متنوعة.