OmniVec2 - شبكة قائمة على التحويلات جديدة للتعلم متعدد الوسائط ومتعدد المهام على نطاق واسع
{Gaurav Sharma Siddharth Srivastava}

الملخص
نقدم شبكة متعددة الوسائط متعددة المهام جديدة وخوارزمية تدريب مصاحبة لها. تتمتع هذه الطريقة بقدرة على استقبال بيانات من حوالي 12 وسيلة مختلفة، وهي: الصورة، الفيديو، الصوت، النص، العمق، السحابة النقطية، السلاسل الزمنية، الجداول، الرسوم البيانية، الأشعة السينية، الأشعة تحت الحمراء، ومستشعرات التسارع (IMU)، والطيف الفائق. تعتمد الطريقة المقترحة على مُشفّرات مخصصة لكل وسيلة (modality-specific tokenizers)، وهيكل مُشترك من نوع الترانسفورمر (shared transformer architecture)، وآليات الانتباه المتبادل (cross-attention mechanisms)، لتحويل البيانات من الوسائط المختلفة إلى فضاء ترميز موحد. وتُعالج السيناريوهات متعددة الوسائط ومتعددة المهام من خلال دمج رؤوس مهام مخصصة لكل وسيلة حسب المهمة المطلوبة. كما نقترح استراتيجية تدريب مُسبق جديد، تعتمد على تبديل الوسائط بشكل تكراري، لتهيئة الشبكة، بالإضافة إلى خوارزمية تدريب تُوازن بين التدريب المشترك الكامل على جميع الوسائط، وبين التدريب على أزواج من الوسائط في كل مرة. ونُقدّم تقييمًا شاملاً عبر 25 مجموعة بيانات من 12 وسيلة مختلفة، ونُظهر أداءً يُعدّ من أفضل الأداءات الحالية، مما يُثبت فعالية المعمارية المقترحة، واستراتيجية التدريب المسبق، والتدريب المتعدد المهام المُعدّل.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40-c | OmniVec2 | Error Rate: 0.142 |
| 3d-point-cloud-classification-on-scanobjectnn | OmniVec2 | Overall Accuracy: 97.2 |
| action-classification-on-kinetics-400 | OmniVec2 | Acc@1: 93.6 |
| action-classification-on-moments-in-time | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-classification-on-moments-in-time-2 | OmniVec2 | Top 1 Accuracy: 53.1 |
| action-recognition-in-videos-on-ucf101 | OmniVec2 | 3-fold Accuracy: 99.6 |
| audio-classification-on-audioset | OmniVec2 | Test mAP: 0.558 |
| audio-classification-on-esc-50 | OmniVec2 | Accuracy (5-fold): 99.1 PRE-TRAINING DATASET: Multiple Top-1 Accuracy: 99.1 |
| fine-grained-image-classification-on-oxford-1 | OmniVec2 | Accuracy: 99.6 |
| image-classification-on-imagenet | OmniVec2 | Top 1 Accuracy: 89.3% |
| image-classification-on-inaturalist-2018 | OmniVec2 | Top-1 Accuracy: 94.6 |
| image-classification-on-places365 | OmniVec2 | Top 1 Accuracy: 65.1 |
| semantic-segmentation-on-nyu-depth-v2 | OmniVec2 | Mean IoU: 63.6 |
| text-summarization-on-dialogsum | OmniVec2 | BertScore: 72.8 Rouge1: 47.6 Rouge2: 22.1 RougeL: 41.4 |
| text-summarization-on-samsum-corpus | OmniVec2 | BertScoreF1: 65.1 ROUGE-1: 59.1 ROUGE-2: 34.1 ROUGE-L: 63.7 |
| zero-shot-video-retrieval-on-youcook2 | OmniVec2 | text-to-video R@1: 26.1 text-to-video R@10: 70.8 text-to-video R@5: 54.1 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.