HyperAIHyperAI

Command Palette

Search for a command to run...

نحل العسل: مُسَجِّل معزز بالمكانية للنماذج اللغوية متعددة الوسائط

Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh

الملخص

في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs)، يلعب المُعَالِج البصري دورًا حاسمًا في ربط مُشفرات الرؤية المدربة مسبقًا مع نماذج اللغات الكبيرة (LLMs)، مما يمكّن من فهم بصري عميق بينما يستفيد من القدرات القوية لنماذج اللغات الكبيرة. على الرغم من أهمية المُعَالِج البصري، فقد تم تناوله بشكل نسبي أقل في الأبحاث. في هذه الدراسة، نحدد أولًا خاصيتين أساسيتين للمُعَالِج: (i) المرونة في إدارة عدد الرموز البصرية، وهي ضرورية لفعالية النموذج متعدد الوسائط للغة بشكل عام، و(ii) الحفاظ على السياق المحلي من الخصائص البصرية، وهو أمر حيوي للفهم المكاني. بناءً على هذه النتائج، نقترح تصميمًا جديدًا للمُعَالِج يتميز بالمرونة والتعزيز المحلي، مما يحقق بكفاءة الخاصيتين المرغوبتين. بالإضافة إلى ذلك، نقدم استراتيجيات شاملة لاستخدام فعال لمجموعات التعليم المتعددة والمتنوعة. من خلال تجارب واسعة النطاق، ندرس تأثير الخيارات التصميمية الفردية. أخيرًا، يتفوق النموذج المقترح لدينا "Honeybee" بشكل كبير على الأساليب السابقة الأكثر تقدمًا في مجموعة متنوعة من مقاييس الأداء، بما في ذلك MME وMMBench وSEED-Bench وLLaVA-Bench، حيث يحقق كفاءة أعلى بكثير. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/kakaobrain/honeybee.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نحل العسل: مُسَجِّل معزز بالمكانية للنماذج اللغوية متعددة الوسائط | مستندات | HyperAI