HyperAIHyperAI
منذ 2 أشهر

SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ النماذج اللغوية الكبيرة متعددة الوسائط

Lin, Ziyi ; Liu, Chris ; Zhang, Renrui ; Gao, Peng ; Qiu, Longtian ; Xiao, Han ; Qiu, Han ; Lin, Chen ; Shao, Wenqi ; Chen, Keqin ; Han, Jiaming ; Huang, Siyuan ; Zhang, Yichi ; He, Xuming ; Li, Hongsheng ; Qiao, Yu
SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ
النماذج اللغوية الكبيرة متعددة الوسائط
الملخص

نقدم SPHINX، وهو نموذج لغوي كبير متعدد الوسائط (MLLM) يتميز بمزيج مشترك للأوزان النموذجية، ومهمات التuning، والتمثيلات البصرية. أولاً، من أجل تحسين التوافق بين الرؤية واللغة بشكل أكبر، نقوم بإعادة تنشيط النموذج اللغوي الكبير (LLM) أثناء التدريب الأولي، ونتبنى استراتيجية مزيج للأوزان بين LLMs التي تم تدريبها على بيانات حقيقية وبيانات مصنعة. من خلال دمج الأوزان مباشرة من مجالين مختلفين، يمكن للنموذج اللغوي المختلط أن يدمج الدلالات المتعددة بكفاءة مع متانة ملائمة. ثانياً، لتمكين القدرات المتعددة الأغراض، نقوم بمزج مجموعة متنوعة من المهمات لتuning التعليمات البصرية المشتركة، ونصمم تعليمات خاصة بالمهمة لتجنب الصراع بين المهمات. بالإضافة إلى الإجابات الأساسية على الأسئلة البصرية، نشمل مهمات أكثر تحديًا مثل الفهم على مستوى المنطقة، وتثبيت التعليقات التوضيحية، وكشف تخطيط المستندات، وتقدير وضع الإنسان، مما يساهم في تعزيز متبادل عبر سيناريوهات مختلفة.بالإضافة إلى ذلك، نقترح استخراج تمثيلات بصرية شاملة من هياكل شبكة مختلفة وأنماط تدريب أولي متنوعة وحجم المعلومات. هذا يوفر للنماذج اللغوية تمثيلات صورية أكثر متانة. بناءً على خلطنا المشترك المقترح، يظهر SPHINX قدرات فائقة في الفهم المتعدد الوسائط في مجموعة واسعة من التطبيقات. بالإضافة إلى ذلك، نقترح استراتيجية كفاءة إضافية تستهدف التقاط المظاهر الدقيقة للصور عالية الدقة بشكل أفضل. باستخدام خلط مختلف المقاييس والصور الفرعية عالية الدقة، يصل SPHINX إلى أداء استثنائي في تحليل الصور والاستدلال عليها في مقاييس التقييم الحالية. نأمل أن يعمل بحثنا على إلقاء الضوء على استكشاف الخلط المشترك في أبحاث MLLM المستقبلية. تم إطلاق الكود في https://github.com/Alpha-VLLM/LLaMA2-Accessory.

SPHINX: مزيج الأوزان والمهام والتمثيلات البصرية المشتركة لـ النماذج اللغوية الكبيرة متعددة الوسائط | أحدث الأوراق البحثية | HyperAI