HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamic-LLaVA: نماذج لغوية كبيرة متعددة الوسائط فعالة من خلال تخفيف سياق الرؤية واللغة الديناميكي

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

الملخص

أحرزت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) تقدماً ملحوظاً في فهم الرؤية، والاستدلال، والتفاعل. ومع ذلك، تزداد حسابات الاستنتاج وحجم الذاكرة تدريجياً مع إنتاج الرموز الناتجة أثناء عملية الترميز، مما يؤثر مباشرة على كفاءة نماذج MLLMs. حاولت الطرق الحالية تقليل التكرار في السياق البصري لتحقيق كفاءة أعلى في نماذج MLLMs. ورغم ذلك، تتناقص فوائد الكفاءة الناتجة عن تقليل السياق البصري خلال مرحلة التمهيد (prefill) تدريجياً خلال مرحلة الترميز (decoding). لمعالجة هذه المشكلة، قمنا بطرح إطار عمل ديناميكي لتخفيف السياق بين اللغة والرؤية يُدعى Dynamic-LLaVA، الذي يقلل ديناميكياً من التكرار في السياق البصري خلال مرحلة التمهيد، ويقلل من عبء الذاكرة والحسابات الناتجة عن السياق اللغوي المُنتَج أثناء الترميز. ويُصمم Dynamic-LLaVA خطة استنتاج مُخصصة لتخفيف السياق المختلفة حسب أنماط الاستنتاج المختلفة، أي: التمهيد، والترميز مع وبدون ذاكرة KV، لتحقيق استنتاج فعّال لنماذج MLLMs. في الممارسة العملية، يمكن لـ Dynamic-LLaVA تقليل استهلاك الحسابات بنسبة تقارب 75٪ خلال مرحلة التمهيد. وفي الوقت نفسه، خلال العملية الكاملة لإنتاج النماذج، يقلل Dynamic-LLaVA من استهلاك الحسابات بنسبة تقارب 50٪ أثناء الترميز دون استخدام ذاكرة KV، بينما يوفر حوالي 50٪ من عبء ذاكرة GPU عند الترميز باستخدام ذاكرة KV، وذلك بفضل تخفيف السياق بين اللغة والرؤية. كما أظهرت تجارب واسعة أن Dynamic-LLaVA يحقق استنتاجاً فعالاً لنماذج MLLMs مع تدهور ضئيل في قدرة الفهم والإنتاج، أو حتى تحسين في الأداء مقارنةً بالأساليب الأساسية التي تعتمد على السياق الكامل. يمكن الوصول إلى الكود عبر الرابط: https://github.com/Osilly/dynamic_llava.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Dynamic-LLaVA: نماذج لغوية كبيرة متعددة الوسائط فعالة من خلال تخفيف سياق الرؤية واللغة الديناميكي | مستندات | HyperAI