HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق المتعدد الوسائط التلقائي للنماذج البصرية الكبيرة المُشفّرة

الملخص

نقدّم طريقة جديدة لتدريب النماذج الكبيرة للرؤية مسبقًا.مستندين إلى التطورات الحديثة في تدريب النماذج البصرية بشكل تسلسلي (autoregressive)، نوسع هذا الإطار إلى بيئة متعددة الوسائط، أي الصور والنص. في هذه الورقة، نقدّم AIMV2، وهي عائلة من مُشفّرات الرؤية الشاملة، تتميز بعملية تدريب مسبق بسيطة، وقابلية التوسع، وأداء متميز عبر مجموعة واسعة من المهام اللاحقة. يتم تحقيق ذلك من خلال ربط مُشفّر الرؤية بمحDecoder متعدد الوسائط يقوم بتوليد قطع الصورة الخام ورموز النص بشكل تسلسلي. تتفوّق مُشفّراتنا ليس فقط في التقييمات متعددة الوسائط، بل أيضًا في معايير الرؤية مثل التوصيف المكاني، التوصيف المرجعي، والتصنيف. وبشكل لافت، حقق مُشفّر AIMV2-3B دقة قدرها 89.5٪ على ImageNet-1k باستخدام جذع مجمّد. علاوةً على ذلك، يتفوّق AIMV2 باستمرار على النماذج التقابلية الرائدة (مثل CLIP وSigLIP) في فهم الصور متعددة الوسائط عبر مجموعات بيئة متنوعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp