HyperAIHyperAI
منذ 2 أشهر

InternVL: توسيع نماذج أساس الرؤية وتوحيدها لمهام البصر واللغة العامة

Chen, Zhe ; Wu, Jiannan ; Wang, Wenhai ; Su, Weijie ; Chen, Guo ; Xing, Sen ; Zhong, Muyan ; Zhang, Qinglong ; Zhu, Xizhou ; Lu, Lewei ; Li, Bin ; Luo, Ping ; Lu, Tong ; Qiao, Yu ; Dai, Jifeng
InternVL: توسيع نماذج أساس الرؤية وتوحيدها لمهام البصر واللغة العامة
الملخص

النمو الأسي للنماذج اللغوية الكبيرة (LLMs) فتح العديد من الفرص لنظم الذكاء الاصطناعي متعددة الوسائط (AGI). ومع ذلك، لم يواكب التقدم في نماذج الرؤية ونماذج أساس الرؤية-اللغة، وهي عناصر حاسمة أيضًا لنظم AGI متعددة الوسائط، النمو الذي شهدته LLMs. في هذا البحث، صممنا نموذجًا كبيرًا لأساس الرؤية-اللغة (InternVL)، والذي يوسع نطاق نموذج أساس الرؤية إلى 6 مليارات معلمة ويتم تطابقه تدريجيًا مع LLM باستخدام بيانات الصور والنصوص على مستوى الويب من مصادر مختلفة. يمكن تطبيق هذا النموذج بشكل واسع لتحقيق أداء رائد في 32 معيارًا عامًا للرؤيا-اللغة، بما في ذلك مهام الإدراك البصري مثل التعرف على الصور على مستوى الصورة أو البكسل، ومهمات الرؤية-اللغة مثل تصنيف الصور/مقاطع الفيديو بدون تعليمات سابقة، واسترجاع الصور/مقاطع الفيديو-النصوص بدون تعليمات سابقة، وإنشاء أنظمة حوارية متعددة الوسائط بالربط مع LLMs. يتمتع هذا النموذج بقدرات بصرية قوية ويمكن أن يكون بديلًا جيدًا لـ ViT-22B. نأمل أن يساهم بحثنا في تطور النماذج الكبيرة متعددة الوسائط. يمكن الحصول على الشفرة والنماذج من https://github.com/OpenGVLab/InternVL.

InternVL: توسيع نماذج أساس الرؤية وتوحيدها لمهام البصر واللغة العامة | أحدث الأوراق البحثية | HyperAI