Command Palette
Search for a command to run...
التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات
التعلم متعدد الوسائط الكفء من وجهة نظر متمحورة حول البيانات
Muyang He extsuperscript1,2*, Yexin Liu extsuperscript1,3*, Boya Wu extsuperscript1*, Jianhao Yuan extsuperscript4, Yueze Wang extsuperscript1, Tiejun Huang extsuperscript1,2, Bo Zhao extsuperscript1,5†
الملخص
أظهرت نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) قدرات ملحوظة في مهام الفهم البصري العام والاستدلال. ومع ذلك، فإن نشرها يواجه تحديًا بسبب التكاليف الحاسوبية الكبيرة سواء في التدريب أو الاستدلال، مما يحد من إمكانية الوصول إليها من قبل المجتمع البحثي الأوسع ومجتمع المستخدمين. حل مباشر هو الاستفادة من نماذج الرؤية واللغة المدربة مسبقًا الأصغر حجمًا، ولكن هذا الحل يؤدي حتماً إلى انخفاض كبير في الأداء. في هذه الورقة، نثبت إمكانية تدريب نموذج LLM متعدد الوسائط أصغر ولكنه أفضل باستخدام بيانات تدريب عالية الجودة. بشكل خاص، نقدم بوني (Bunny)، عائلة من النماذج الخفيفة MLLM مع بنية أساسية مرنة للرؤية واللغة لتعلم متعدد الوسائط بكفاءة من بيانات التدريب المختارة. تظهر التجارب أن بوني-4B/8B يتفوق على أحدث النماذج الكبيرة MLLM في العديد من المقاييس. نتوقع أن يمكن هذا العمل المجتمع بتوفير أداة مصدر مفتوح نظيفة ومرونة للاستخدام في الأبحاث والتطويرات المستقبلية. يمكن العثور على الشفرة والنماذج والبيانات في https://github.com/BAAI-DCAI/Bunny.