HyperAIHyperAI
منذ 2 أشهر

التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات

Muyang He; Yexin Liu; Boya Wu; Jianhao Yuan; Yueze Wang; Tiejun Huang; Bo Zhao
التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات
الملخص

أظهرت نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في مهام الفهم البصري العام والاستدلال. ومع ذلك، فإن نشرها يواجه تحديًا بسبب التكاليف الحاسوبية الكبيرة سواء في التدريب أو الاستدلال، مما يحد من إمكانية الوصول إليها من قبل المجتمع البحثي الأوسع ومجتمع المستخدمين. حل مباشر هو الاستفادة من نماذج الرؤية واللغة المدربة مسبقًا الأصغر حجمًا، ولكن هذا الحل يؤدي حتماً إلى انخفاض كبير في الأداء. في هذه الورقة، نثبت إمكانية تدريب نموذج LLM متعدد الوسائط أصغر ولكنه أفضل باستخدام بيانات تدريب عالية الجودة. بشكل خاص، نقدم بوني (Bunny)، عائلة من النماذج الخفيفة MLLM مع بنية أساسية مرنة للرؤية واللغة لتعلم متعدد الوسائط بكفاءة من بيانات التدريب المختارة. تظهر التجارب أن بوني-4B/8B يتفوق على أحدث النماذج الكبيرة MLLM في العديد من المقاييس. نتوقع أن يمكن هذا العمل المجتمع بتوفير أداة مصدر مفتوح نظيفة ومرونة للاستخدام في الأبحاث والتطويرات المستقبلية. يمكن العثور على الشفرة والنماذج والبيانات في https://github.com/BAAI-DCAI/Bunny.

التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات | أحدث الأوراق البحثية | HyperAI