HyperAIHyperAI

Command Palette

Search for a command to run...

HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط

الملخص

تشير التطورات الحديثة إلى أن التوسع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يُعزز بشكل فعّال الأداء في المهام متعددة الوسائط التالية. يعتمد النموذج السائد في مجال MLLMs، مثل LLaVA، على تحويل السمات البصرية إلى رموز تشبه النص باستخدام خريطة بين البصرية واللغة ثابتة، مما يمكّن نماذج لغة كبيرة ثابتة من اكتساب القدرة على فهم المعلومات البصرية من خلال التدريب الموجه بالتعليمات البصرية. وعلى الرغم من إمكانات هذا النهج، فإن استراتيجية التدريب الثابتة~\footnote{تشير الاستراتيجية الثابتة إلى النموذج المدرب باستخدام معاملات ثابتة.} التي تستخدم نفس المعاملات قد تحد من الأداء في مهام متعددة الوسائط المختلفة. وبناءً على ذلك، نقدم نموذج HyperLLaVA، الذي يشمل تدريبًا متكيفًا لمعاملات المُحَوِّل (projector) ونموذج لغة كبير (LLM)، إلى جانب خبير بصري ديناميكي وخبير لغوي ديناميكي على التوالي. وتُستمد هذه الخبرات من شبكة هايبر (HyperNetworks)، التي تُولِّد تغيرات مُتكيفة في المعاملات من خلال توجيه بصري ولغوي، مما يتيح نمذجة ديناميكية للمُحَوِّل ونموذج لغة كبير خلال التدريب على مرحلتين.تُظهر تجاربنا أن حلنا يتفوق بشكل ملحوظ على LLaVA في معايير MLLM الحالية، بما في ذلك MME، MMBench، SEED-Bench، وLLaVA-Bench. ~\footnote{يمكن الاطلاع على المشروع عبر الرابط: https://github.com/DCDmllm/HyperLLaVA}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط | مستندات | HyperAI