Command Palette
Search for a command to run...
HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط
HyperLLaVA: ضبط ديناميكي للخبرة البصرية واللغوية لنماذج اللغة الكبيرة متعددة الوسائط
الملخص
تشير التطورات الحديثة إلى أن التوسع في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يُعزز بشكل فعّال الأداء في المهام متعددة الوسائط التالية. يعتمد النموذج السائد في مجال MLLMs، مثل LLaVA، على تحويل السمات البصرية إلى رموز تشبه النص باستخدام خريطة بين البصرية واللغة ثابتة، مما يمكّن نماذج لغة كبيرة ثابتة من اكتساب القدرة على فهم المعلومات البصرية من خلال التدريب الموجه بالتعليمات البصرية. وعلى الرغم من إمكانات هذا النهج، فإن استراتيجية التدريب الثابتة~\footnote{تشير الاستراتيجية الثابتة إلى النموذج المدرب باستخدام معاملات ثابتة.} التي تستخدم نفس المعاملات قد تحد من الأداء في مهام متعددة الوسائط المختلفة. وبناءً على ذلك، نقدم نموذج HyperLLaVA، الذي يشمل تدريبًا متكيفًا لمعاملات المُحَوِّل (projector) ونموذج لغة كبير (LLM)، إلى جانب خبير بصري ديناميكي وخبير لغوي ديناميكي على التوالي. وتُستمد هذه الخبرات من شبكة هايبر (HyperNetworks)، التي تُولِّد تغيرات مُتكيفة في المعاملات من خلال توجيه بصري ولغوي، مما يتيح نمذجة ديناميكية للمُحَوِّل ونموذج لغة كبير خلال التدريب على مرحلتين.تُظهر تجاربنا أن حلنا يتفوق بشكل ملحوظ على LLaVA في معايير MLLM الحالية، بما في ذلك MME، MMBench، SEED-Bench، وLLaVA-Bench. ~\footnote{يمكن الاطلاع على المشروع عبر الرابط: https://github.com/DCDmllm/HyperLLaVA}