HyperAIHyperAI

Command Palette

Search for a command to run...

InternVL: توسيع نماذج أساس الرؤية وتوحيدها لمهام البصر واللغة العامة

الملخص

النمو الأسي للنماذج اللغوية الكبيرة (LLMs) فتح العديد من الفرص لنظم الذكاء الاصطناعي متعددة الوسائط (AGI). ومع ذلك، لم يواكب التقدم في نماذج الرؤية ونماذج أساس الرؤية-اللغة، وهي عناصر حاسمة أيضًا لنظم AGI متعددة الوسائط، النمو الذي شهدته LLMs. في هذا البحث، صممنا نموذجًا كبيرًا لأساس الرؤية-اللغة (InternVL)، والذي يوسع نطاق نموذج أساس الرؤية إلى 6 مليارات معلمة ويتم تطابقه تدريجيًا مع LLM باستخدام بيانات الصور والنصوص على مستوى الويب من مصادر مختلفة. يمكن تطبيق هذا النموذج بشكل واسع لتحقيق أداء رائد في 32 معيارًا عامًا للرؤيا-اللغة، بما في ذلك مهام الإدراك البصري مثل التعرف على الصور على مستوى الصورة أو البكسل، ومهمات الرؤية-اللغة مثل تصنيف الصور/مقاطع الفيديو بدون تعليمات سابقة، واسترجاع الصور/مقاطع الفيديو-النصوص بدون تعليمات سابقة، وإنشاء أنظمة حوارية متعددة الوسائط بالربط مع LLMs. يتمتع هذا النموذج بقدرات بصرية قوية ويمكن أن يكون بديلًا جيدًا لـ ViT-22B. نأمل أن يساهم بحثنا في تطور النماذج الكبيرة متعددة الوسائط. يمكن الحصول على الشفرة والنماذج من https://github.com/OpenGVLab/InternVL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
InternVL: توسيع نماذج أساس الرؤية وتوحيدها لمهام البصر واللغة العامة | مستندات | HyperAI