OmniVec2 - شبكة قائمة على Transformer جديدة لتعلم متعدد الوسائط ومتعدد المهام على نطاق واسع

نقدم شبكة متعددة الوسائط متعددة المهام جديدة وخوارزمية تدريب مصاحبة لها. تتميز هذه الطريقة بقدرتها على استقبال بيانات من حوالي 12 وسائط مختلفة، تشمل الصور، الفيديو، الصوت، النص، العمق، السحابة النقطية، السلاسل الزمنية، البيانات الجدولية، الرسوم البيانية، الأشعة السينية، الأشعة تحت الحمراء، وحدة الاستشعار المسرّعة (IMU)، والطيف الفائق. يعتمد النهج المقترح على استخدام معالجات مخصصة لكل وسيلة (modality-specialized tokenizers)، وبنية ترانسفورمر مشتركة، وآليات الانتباه المتقاطع (cross-attention mechanisms) لتحويل البيانات من الوسائط المختلفة إلى فضاء تضمين موحد. ويُعالج السيناريوهات المتعددة الوسائط والمهام من خلال دمج رؤوس مهام مخصصة للوسائط المختلفة حسب المهمة المطلوبة. ونُقدّم استراتيجية تدريب مسبق جديدة تعتمد على تبديل الوسائط بشكل تكراري لتوليد بدء تشغيل للشبكة، بالإضافة إلى خوارزمية تدريب تُوازن بين التدريب المشترك الكامل على جميع الوسائط، وبين التدريب على أزواج من الوسائط في كل مرة. ونُقدّم تقييمًا شاملاً عبر 25 مجموعة بيانات من 12 وسيلة مختلفة، ونُظهر أداءً يُعدّ من أفضل الأداءات الحالية، مما يُثبت فعالية البنية المُقترحة، واستراتيجية التدريب المسبق، والتدريب المتعدد المهام المُعدّل.