الملخص

في العام الماضي، أحدثت الهياكل متعددة الوسائط ثورة في النهج والحلول القائمة على الذكاء الاصطناعي، مما سمح بتوسيع قدرات النماذج اللغوية الكبيرة (LLM). نقترح نموذجًا يُسمى OmniFusion مبنيًا على نموذج لغوي كبير مُدرّب مسبقًا، مع استخدام مُعدّلات مخصصة للوسائط البصرية. وقد قمنا بتقييم ومقارنة عدة مبادئ تصميم هيكلية بهدف تحسين الترابط بين البيانات النصية والبصرية: مُعدّلات MLP والمحولات (Transformers)، بالإضافة إلى مجموعة من مشغلات الترميز المستندة إلى CLIP ونموذج ViT (مثل SigLIP وInternVIT)، وطرق دمج هذه المشغلات، وطرق ترميز الصور (إما ترميز الصورة الكاملة أو تقسيمها إلى أجزاء)، فضلاً عن نموذجين من النماذج اللغوية الكبيرة بحجم 7 مليار معلمة (واحدة خاصة وواحدة مفتوحة المصدر من نوع Mistral). أظهرت التجارب على 8 معايير تقييم متعددة الوسائط (Visual-Language Benchmarks) أن أفضل إعداد لنموذج OmniFusion يحقق أعلى الدرجات في مهام التصويت على الأسئلة البصرية (VQA) مقارنةً بالحلول المفتوحة المصدر المشابهة لـ LLaVA، مثل: VizWiz، Pope، MM-Vet، ScienceQA، MMBench، TextVQA، VQAv2، وMMMU. كما نقترح مجموعة متنوعة من السيناريوهات التي يُظهر فيها نموذج OmniFusion إجابات مفصلة جدًا في مجالات مختلفة، منها: الأعمال المنزلية، الجولات السياحية، الثقافة، الطب، وتمييز المعادلات المكتوبة بخط اليد أو المسح الضوئي. ويُعد نموذج OmniFusion المستند إلى Mistral حلاً مفتوح المصدر، متاحًا مع الأوزان والنصوص البرمجية الخاصة بالتدريب والاستنتاج عبر الرابط التالي: https://github.com/AIRI-Institute/OmniFusion.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار