الملخص

نقدم SPHINX، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) يتميز بمزيج مشترك للأوزان النموذجية، ومهمات التuning، والتمثيلات البصرية. أولاً، من أجل تحسين التوافق بين الرؤية واللغة بشكل أكبر، نقوم بإعادة تنشيط النموذج اللغوي الكبير (LLM) أثناء التدريب الأولي، ونتبنى استراتيجية مزيج للأوزان بين LLMs التي تم تدريبها على بيانات حقيقية وبيانات مصنعة. من خلال دمج الأوزان مباشرة من مجالين مختلفين، يمكن للنموذج اللغوي المختلط أن يدمج الدلالات المتعددة بكفاءة مع متانة ملائمة. ثانياً، لتمكين القدرات المتعددة الأغراض، نقوم بمزج مجموعة متنوعة من المهمات لتuning التعليمات البصرية المشتركة، ونصمم تعليمات خاصة بالمهمة لتجنب الصراع بين المهمات. بالإضافة إلى الإجابات الأساسية على الأسئلة البصرية، نشمل مهمات أكثر تحديًا مثل الفهم على مستوى المنطقة، وتثبيت التعليقات التوضيحية، وكشف تخطيط المستندات، وتقدير وضع الإنسان، مما يساهم في تعزيز متبادل عبر سيناريوهات مختلفة.بالإضافة إلى ذلك، نقترح استخراج تمثيلات بصرية شاملة من هياكل شبكة مختلفة وأنماط تدريب أولي متنوعة وحجم المعلومات. هذا يوفر للنماذج اللغوية تمثيلات صورية أكثر متانة. بناءً على خلطنا المشترك المقترح، يظهر SPHINX قدرات فائقة في الفهم المتعدد الوسائط في مجموعة واسعة من التطبيقات. بالإضافة إلى ذلك، نقترح استراتيجية كفاءة إضافية تستهدف التقاط المظاهر الدقيقة للصور عالية الدقة بشكل أفضل. باستخدام خلط مختلف المقاييس والصور الفرعية عالية الدقة، يصل SPHINX إلى أداء استثنائي في تحليل الصور والاستدلال عليها في مقاييس التقييم الحالية. نأمل أن يعمل بحثنا على إلقاء الضوء على استكشاف الخلط المشترك في أبحاث MLLM المستقبلية. تم إطلاق الكود في https://github.com/Alpha-VLLM/LLaMA2-Accessory.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ النماذج اللغوية الكبيرة متعددة الوسائط

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1*†‡ Longtian Qiu extsuperscript1,3* Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript16 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ النماذج اللغوية الكبيرة متعددة الوسائط

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1*†‡ Longtian Qiu extsuperscript1,3* Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript16 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ النماذج اللغوية الكبيرة متعددة الوسائط

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1*†‡ Longtian Qiu extsuperscript1,3* Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript16 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1†‡ Longtian Qiu extsuperscript1,3 Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript1

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1†‡ Longtian Qiu extsuperscript1,3 Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript1

Ziyi Lin extsuperscript1,2* Chris Liu extsuperscript1* Renrui Zhang extsuperscript1,2* Peng Gao extsuperscript1†‡ Longtian Qiu extsuperscript1,3 Han Xiao extsuperscript1 Han Qiu extsuperscript1 Chen Lin extsuperscript1 Wenqi Shao extsuperscript1 Keqin Chen extsuperscript1