Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

الملخص
في العام الماضي، أحدثت الهياكل متعددة الوسائط ثورة في النهج والحلول القائمة على الذكاء الاصطناعي، مما سمح بتوسيع قدرات النماذج اللغوية الكبيرة (LLM). نقترح نموذجًا يُسمى OmniFusion مبنيًا على نموذج لغوي كبير مُدرّب مسبقًا، مع استخدام مُعدّلات مخصصة للوسائط البصرية. وقد قمنا بتقييم ومقارنة عدة مبادئ تصميم هيكلية بهدف تحسين الترابط بين البيانات النصية والبصرية: مُعدّلات MLP والمحولات (Transformers)، بالإضافة إلى مجموعة من مشغلات الترميز المستندة إلى CLIP ونموذج ViT (مثل SigLIP وInternVIT)، وطرق دمج هذه المشغلات، وطرق ترميز الصور (إما ترميز الصورة الكاملة أو تقسيمها إلى أجزاء)، فضلاً عن نموذجين من النماذج اللغوية الكبيرة بحجم 7 مليار معلمة (واحدة خاصة وواحدة مفتوحة المصدر من نوع Mistral). أظهرت التجارب على 8 معايير تقييم متعددة الوسائط (Visual-Language Benchmarks) أن أفضل إعداد لنموذج OmniFusion يحقق أعلى الدرجات في مهام التصويت على الأسئلة البصرية (VQA) مقارنةً بالحلول المفتوحة المصدر المشابهة لـ LLaVA، مثل: VizWiz، Pope، MM-Vet، ScienceQA، MMBench، TextVQA، VQAv2، وMMMU. كما نقترح مجموعة متنوعة من السيناريوهات التي يُظهر فيها نموذج OmniFusion إجابات مفصلة جدًا في مجالات مختلفة، منها: الأعمال المنزلية، الجولات السياحية، الثقافة، الطب، وتمييز المعادلات المكتوبة بخط اليد أو المسح الضوئي. ويُعد نموذج OmniFusion المستند إلى Mistral حلاً مفتوح المصدر، متاحًا مع الأوزان والنصوص البرمجية الخاصة بالتدريب والاستنتاج عبر الرابط التالي: https://github.com/AIRI-Institute/OmniFusion.
مستودعات الكود
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| visual-question-answering-on-mm-vet | OmniFusion (grid split + ruDocVQA) | GPT-4 score: 39.40 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.