HyperAIHyperAI

Command Palette

Search for a command to run...

OmniVec2 - شبكة قائمة على التحويلات جديدة للتعلم متعدد الوسائط ومتعدد المهام على نطاق واسع

Gaurav Sharma Siddharth Srivastava

الملخص

نقدم شبكة متعددة الوسائط متعددة المهام جديدة وخوارزمية تدريب مصاحبة لها. تتمتع هذه الطريقة بقدرة على استقبال بيانات من حوالي 12 وسيلة مختلفة، وهي: الصورة، الفيديو، الصوت، النص، العمق، السحابة النقطية، السلاسل الزمنية، الجداول، الرسوم البيانية، الأشعة السينية، الأشعة تحت الحمراء، ومستشعرات التسارع (IMU)، والطيف الفائق. تعتمد الطريقة المقترحة على مُشفّرات مخصصة لكل وسيلة (modality-specific tokenizers)، وهيكل مُشترك من نوع الترانسفورمر (shared transformer architecture)، وآليات الانتباه المتبادل (cross-attention mechanisms)، لتحويل البيانات من الوسائط المختلفة إلى فضاء ترميز موحد. وتُعالج السيناريوهات متعددة الوسائط ومتعددة المهام من خلال دمج رؤوس مهام مخصصة لكل وسيلة حسب المهمة المطلوبة. كما نقترح استراتيجية تدريب مُسبق جديد، تعتمد على تبديل الوسائط بشكل تكراري، لتهيئة الشبكة، بالإضافة إلى خوارزمية تدريب تُوازن بين التدريب المشترك الكامل على جميع الوسائط، وبين التدريب على أزواج من الوسائط في كل مرة. ونُقدّم تقييمًا شاملاً عبر 25 مجموعة بيانات من 12 وسيلة مختلفة، ونُظهر أداءً يُعدّ من أفضل الأداءات الحالية، مما يُثبت فعالية المعمارية المقترحة، واستراتيجية التدريب المسبق، والتدريب المتعدد المهام المُعدّل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp