الملخص

تشير التطورات الحديثة إلى أن التوسع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يُعزز بشكل فعّال الأداء في المهام متعددة الوسائط التالية. يعتمد النموذج السائد في مجال MLLMs، مثل LLaVA، على تحويل السمات البصرية إلى رموز تشبه النص باستخدام خريطة بين البصرية واللغة ثابتة، مما يمكّن نماذج لغة كبيرة ثابتة من اكتساب القدرة على فهم المعلومات البصرية من خلال التدريب الموجه بالتعليمات البصرية. وعلى الرغم من إمكانات هذا النهج، فإن استراتيجية التدريب الثابتة~\footnote{تشير الاستراتيجية الثابتة إلى النموذج المدرب باستخدام معاملات ثابتة.} التي تستخدم نفس المعاملات قد تحد من الأداء في مهام متعددة الوسائط المختلفة. وبناءً على ذلك، نقدم نموذج HyperLLaVA، الذي يشمل تدريبًا متكيفًا لمعاملات المُحَوِّل (projector) ونموذج لغة كبير (LLM)، إلى جانب خبير بصري ديناميكي وخبير لغوي ديناميكي على التوالي. وتُستمد هذه الخبرات من شبكة هايبر (HyperNetworks)، التي تُولِّد تغيرات مُتكيفة في المعاملات من خلال توجيه بصري ولغوي، مما يتيح نمذجة ديناميكية للمُحَوِّل ونموذج لغة كبير خلال التدريب على مرحلتين.تُظهر تجاربنا أن حلنا يتفوق بشكل ملحوظ على LLaVA في معايير MLLM الحالية، بما في ذلك MME، MMBench، SEED-Bench، وLLaVA-Bench. ~\footnote{يمكن الاطلاع على المشروع عبر الرابط: https://github.com/DCDmllm/HyperLLaVA}

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang