HyperAIHyperAI

Command Palette

Search for a command to run...

MiniGPT-v2: نموذج اللغة الكبير كواجهة موحدة لتعلم المهام المتعددة بين الرؤية واللغة

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny

الملخص

أظهرت نماذج اللغات الكبيرة قدراتها الملفتة كواجهة عامة لمجموعة متنوعة من التطبيقات المتعلقة باللغة. انطلاقًا من هذا، نهدف إلى بناء واجهة موحدة لإتمام العديد من المهام المرتبطة بالرؤية واللغة، بما في ذلك وصف الصور، وإجابة الأسئلة البصرية، وتثبيت العناصر البصرية (Visual Grounding)، وغيرها. التحدي يكمن في استخدام نموذج واحد لتنفيذ مهام الرؤية واللغة المتنوعة بكفاءة عالية باستخدام تعليمات متعددة الأوضاع بسيطة. لتحقيق هذا الهدف، نقدم MiniGPT-v2، وهو نموذج يمكن اعتباره واجهة موحدة للتعامل بشكل أفضل مع مختلف مهام الرؤية واللغة. نقترح استخدام معرفات فريدة لكل مهمة عند تدريب النموذج. هذه المعرفات تمكن نموذجنا من تمييز تعليمات كل مهمة بسهولة أكبر كما تحسن كفاءة تعلم النموذج لكل مهمة. بعد التدريب على ثلاث مراحل، أظهرت النتائج التجريبية أن MiniGPT-v2 حقق أداءً قويًا في العديد من مقاييس إجابة الأسئلة البصرية وتثبيت العناصر البصرية (Visual Grounding) مقارنة بنماذج الرؤية واللغة العامة الأخرى. يمكن الوصول إلى نموذجنا وكود البرمجة الخاص به على الرابط https://minigpt-v2.github.io/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp