HyperAIHyperAI
منذ 2 أشهر

MiniGPT-v2: نموذج اللغة الكبير كواجهة موحدة لتعلم المهام المتعددة بين الرؤية واللغة

Jun Chen; Deyao Zhu; Xiaoqian Shen; Xiang Li; Zechun Liu; Pengchuan Zhang; Raghuraman Krishnamoorthi; Vikas Chandra; Yunyang Xiong; Mohamed Elhoseiny
MiniGPT-v2: نموذج اللغة الكبير كواجهة موحدة لتعلم المهام المتعددة بين الرؤية واللغة
الملخص

أظهرت نماذج اللغات الكبيرة قدراتها الملفتة كواجهة عامة لمجموعة متنوعة من التطبيقات المتعلقة باللغة. انطلاقًا من هذا، نهدف إلى بناء واجهة موحدة لإتمام العديد من المهام المرتبطة بالرؤية واللغة، بما في ذلك وصف الصور، وإجابة الأسئلة البصرية، وتثبيت العناصر البصرية (Visual Grounding)، وغيرها. التحدي يكمن في استخدام نموذج واحد لتنفيذ مهام الرؤية واللغة المتنوعة بكفاءة عالية باستخدام تعليمات متعددة الأوضاع بسيطة. لتحقيق هذا الهدف، نقدم MiniGPT-v2، وهو نموذج يمكن اعتباره واجهة موحدة للتعامل بشكل أفضل مع مختلف مهام الرؤية واللغة. نقترح استخدام معرفات فريدة لكل مهمة عند تدريب النموذج. هذه المعرفات تمكن نموذجنا من تمييز تعليمات كل مهمة بسهولة أكبر كما تحسن كفاءة تعلم النموذج لكل مهمة. بعد التدريب على ثلاث مراحل، أظهرت النتائج التجريبية أن MiniGPT-v2 حقق أداءً قويًا في العديد من مقاييس إجابة الأسئلة البصرية وتثبيت العناصر البصرية (Visual Grounding) مقارنة بنماذج الرؤية واللغة العامة الأخرى. يمكن الوصول إلى نموذجنا وكود البرمجة الخاص به على الرابط https://minigpt-v2.github.io/

MiniGPT-v2: نموذج اللغة الكبير كواجهة موحدة لتعلم المهام المتعددة بين الرؤية واللغة | أحدث الأوراق البحثية | HyperAI