HyperAIHyperAI
منذ 2 أشهر

نحل العسل: مُسَجِّل معزز بالمكانية للنماذج اللغوية متعددة الوسائط

Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh
نحل العسل: مُسَجِّل معزز بالمكانية للنماذج اللغوية متعددة الوسائط
الملخص

في نماذج اللغات الكبيرة متعددة الوسائط (MLLMs)، يلعب المُعَالِج البصري دورًا حاسمًا في ربط مُشفرات الرؤية المدربة مسبقًا مع نماذج اللغات الكبيرة (LLMs)، مما يمكّن من فهم بصري عميق بينما يستفيد من القدرات القوية لنماذج اللغات الكبيرة. على الرغم من أهمية المُعَالِج البصري، فقد تم تناوله بشكل نسبي أقل في الأبحاث. في هذه الدراسة، نحدد أولًا خاصيتين أساسيتين للمُعَالِج: (i) المرونة في إدارة عدد الرموز البصرية، وهي ضرورية لفعالية النموذج متعدد الوسائط للغة بشكل عام، و(ii) الحفاظ على السياق المحلي من الخصائص البصرية، وهو أمر حيوي للفهم المكاني. بناءً على هذه النتائج، نقترح تصميمًا جديدًا للمُعَالِج يتميز بالمرونة والتعزيز المحلي، مما يحقق بكفاءة الخاصيتين المرغوبتين. بالإضافة إلى ذلك، نقدم استراتيجيات شاملة لاستخدام فعال لمجموعات التعليم المتعددة والمتنوعة. من خلال تجارب واسعة النطاق، ندرس تأثير الخيارات التصميمية الفردية. أخيرًا، يتفوق النموذج المقترح لدينا "Honeybee" بشكل كبير على الأساليب السابقة الأكثر تقدمًا في مجموعة متنوعة من مقاييس الأداء، بما في ذلك MME وMMBench وSEED-Bench وLLaVA-Bench، حيث يحقق كفاءة أعلى بكثير. يمكن الوصول إلى الشفرة والنماذج عبر الرابط: https://github.com/kakaobrain/honeybee.

نحل العسل: مُسَجِّل معزز بالمكانية للنماذج اللغوية متعددة الوسائط | أحدث الأوراق البحثية | HyperAI