HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

تقرير فني أومنيفيوشن

Elizaveta Goncharova Anton Razzhigaev Matvey Mikhalchuk Maxim Kurkin Irina Abdullaeva Matvey Skripkin Ivan Oseledets Denis Dimitrov Andrey Kuznetsov

تقرير فني أومنيفيوشن

الملخص

في العام الماضي، أحدثت الهياكل متعددة الوسائط ثورة في النهج والحلول القائمة على الذكاء الاصطناعي، مما سمح بتوسيع قدرات النماذج اللغوية الكبيرة (LLM). نقترح نموذجًا يُسمى OmniFusion مبنيًا على نموذج لغوي كبير مُدرّب مسبقًا، مع استخدام مُعدّلات مخصصة للوسائط البصرية. وقد قمنا بتقييم ومقارنة عدة مبادئ تصميم هيكلية بهدف تحسين الترابط بين البيانات النصية والبصرية: مُعدّلات MLP والمحولات (Transformers)، بالإضافة إلى مجموعة من مشغلات الترميز المستندة إلى CLIP ونموذج ViT (مثل SigLIP وInternVIT)، وطرق دمج هذه المشغلات، وطرق ترميز الصور (إما ترميز الصورة الكاملة أو تقسيمها إلى أجزاء)، فضلاً عن نموذجين من النماذج اللغوية الكبيرة بحجم 7 مليار معلمة (واحدة خاصة وواحدة مفتوحة المصدر من نوع Mistral). أظهرت التجارب على 8 معايير تقييم متعددة الوسائط (Visual-Language Benchmarks) أن أفضل إعداد لنموذج OmniFusion يحقق أعلى الدرجات في مهام التصويت على الأسئلة البصرية (VQA) مقارنةً بالحلول المفتوحة المصدر المشابهة لـ LLaVA، مثل: VizWiz، Pope، MM-Vet، ScienceQA، MMBench، TextVQA، VQAv2، وMMMU. كما نقترح مجموعة متنوعة من السيناريوهات التي يُظهر فيها نموذج OmniFusion إجابات مفصلة جدًا في مجالات مختلفة، منها: الأعمال المنزلية، الجولات السياحية، الثقافة، الطب، وتمييز المعادلات المكتوبة بخط اليد أو المسح الضوئي. ويُعد نموذج OmniFusion المستند إلى Mistral حلاً مفتوح المصدر، متاحًا مع الأوزان والنصوص البرمجية الخاصة بالتدريب والاستنتاج عبر الرابط التالي: https://github.com/AIRI-Institute/OmniFusion.

مستودعات الكود

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-question-answering-on-mm-vetOmniFusion (grid split + ruDocVQA)
GPT-4 score: 39.40

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني أومنيفيوشن | الأوراق البحثية | HyperAI