HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVinci: تقدم جديد في فهم الوسائط المتعددة عبر نموذج ذكاء اصطناعي متكامل يجمع الصور، الفيديو، الصوت، والنص

أعلنت شركة نيفيديا عن نموذج ذكاء اصطناعي متعدد الوسائط يُدعى OmniVinci، الذي يُعدّ تقدماً جوهرياً في فهم النماذج الكبيرة متعددة الوسائط (LLMs) للبيانات البصرية، والصوتية، والنصية معًا. يُعدّ هذا النموذج، الذي يضم 9 مليار معامل، الأفضل في الأداء على معايير متعددة لفهم الوسائط المشتركة، متفوقاً على نموذج Qwen2.5-Omni في عدة اختبارات، مع استخدام كمية تدريبية أقل بكثير. تم تطوير OmniVinci من خلال تحسينين رئيسيين: الهندسة المعمارية للنموذج ومعالجة البيانات. من الناحية المعمارية، قدمت الدراسة ثلاث ابتكارات رئيسية: أولاً، OmniAlignNet، الذي يعزز التماسك بين المتجهات البصرية والصوتية في فضاء مشترك موحد. ثانيًا، Grouping التمثيل الزمني، الذي يُمكّن النموذج من فهم التزامن النسبي بين الإشارات الصوتية والبصرية. ثالثًا، التمثيل الدوراني المُقيّد للزمن، الذي يُشغّل معلومات الوقت المطلقة في التمثيلات المشتركة. من ناحية البيانات، تم تطوير_pipeline لتنظيف وتركيب 24 مليون محادثة أحادية الوسائط ومتعددة الوسائط، مما يعزز قدرة النموذج على التفاعل بين الوسائط المختلفة. أظهرت النتائج أن الوسائط تُعزز بعضها البعض في التعرف والتفكير، مما يُحدث تحسناً ملحوظاً في الأداء. في اختبارات الأداء، حقق OmniVinci تقدماً كبيراً: +19.05 في اختبار DailyOmni (الفهم المشترك بين الوسائط)، +1.7 في MMAR (الصوت)، و+3.9 في Video-MME (الرؤية)، مع استخدامه فقط 0.2 تريليون من رموز التدريب، أي نصف كمية Qwen2.5-Omni التي استخدمت 1.2 تريليوناً — أي تقليل بنسبة 6 أضعاف. كما أظهر النموذج مزايا واضحة في تطبيقات واقعية، مثل الروبوتات، الذكاء الاصطناعي الطبي، وتصنيع المصانع الذكية، حيث يُمكنه تحليل الفيديوهات والصوتيات والنصوص معًا لتقديم تفسيرات دقيقة ومتعددة الأبعاد. في مثال توضيحي، عند عرض فيديو لجنسن هوانغ، أدى النموذج إلى تحليل دقيق للحوار، ووصف التفاصيل البصرية بدقة، بما في ذلك الملابس، البيئة، والحركة، ثم ربط هذا الوصف بالمعنى النصي والصوتي، مما يُظهر قدرته على التفاعل الشامل بين الوسائط. يُعدّ OmniVinci خطوة مهمة نحو نماذج ذكاء اصطناعي قادرة على فهم العالم كما يفهمه الإنسان — من خلال رؤية، سمع، وفهم معاً. يُوصى بتوثيق هذا العمل في الأبحاث المستقبلية، مع الإشارة إلى الدراسة الأصلية المنشورة على arXiv في 2025.

الروابط ذات الصلة

OmniVinci: تقدم جديد في فهم الوسائط المتعددة عبر نموذج ذكاء اصطناعي متكامل يجمع الصور، الفيديو، الصوت، والنص | القصص الشائعة | HyperAI