HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 15 أيام

OmniVinci: تحسين المعمارية والبيانات للفهم الشامل للنماذج المتعددة LLM

OmniVinci: تحسين المعمارية والبيانات للفهم الشامل للنماذج المتعددة
LLM

الملخص

إن تطوير الذكاء الآلي يتطلب تطوير القدرة على الإدراك عبر وسائط متعددة، تمامًا كما يدرك البشر العالم من حولهم. نقدّم "أومنيفينسي" (OmniVinci)، مبادرة تهدف إلى بناء نموذج لغوي كبير (LLM) مفتوح المصدر وقوي القدرات ومتعدد الوسائط. وقد قمنا بدراسة دقيقة لاختيارات التصميم المتعلقة ببنية النموذج وجمع البيانات. وفيما يخص بنية النموذج، نُقدّم ثلاث ابتكارات رئيسية: (1) شبكة "أومني-ألاين-نت" (OmniAlignNet) لتعزيز التماسك بين تمثيلات الصور والصوت في فضاء مُشترك مُتعدد الوسائط (omni-modal latent space)؛ (2) "تجميع التمثيلات الزمنية" (Temporal Embedding Grouping) لالتقاط التماسك الزمني النسبي بين إشارات الصور والصوت؛ و(3) "التمثيل الزمني الدوراني المقيد" (Constrained Rotary Time Embedding) لتمثيل المعلومات الزمنية المطلقة ضمن التمثيلات متعددة الوسائط. كما نُقدّم_pipeline_ (مُنَسَّق) لجمع البيانات وتصنيعها، يُولِّد 24 مليون محادثة فردية ومتعددة الوسائط. ونجد أن الوسائط تُعزز بعضها البعض في الإدراك والاستدلال. ويتفوّق نموذجنا "أومنيفينسي" على نموذج Qwen2.5-Omni بـ +19.05 في اختبار DailyOmni (الفهم عبر الوسائط)، و+1.7 في MMAR (الصوت)، و+3.9 في Video-MME (الرؤية)، مع استخدامه لـ 0.2 تريليون رمز تدريب فقط – أي تقليل بنسبة 6 أضعاف مقارنة بـ 1.2 تريليون رمز تدريب المستخدمة في Qwen2.5-Omni. وأخيرًا، نُظهر الفوائد المتميزة لنموذج متعدد الوسائط في تطبيقات واقعية متنوعة تشمل الروبوتات، والذكاء الاصطناعي الطبي، والمنشآت الصناعية الذكية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp