HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

OmniVec2 - شبكة قائمة على التحويلات جديدة للتعلم متعدد الوسائط ومتعدد المهام على نطاق واسع

{Gaurav Sharma Siddharth Srivastava}

OmniVec2 - شبكة قائمة على التحويلات جديدة للتعلم متعدد الوسائط ومتعدد المهام على نطاق واسع

الملخص

نقدم شبكة متعددة الوسائط متعددة المهام جديدة وخوارزمية تدريب مصاحبة لها. تتمتع هذه الطريقة بقدرة على استقبال بيانات من حوالي 12 وسيلة مختلفة، وهي: الصورة، الفيديو، الصوت، النص، العمق، السحابة النقطية، السلاسل الزمنية، الجداول، الرسوم البيانية، الأشعة السينية، الأشعة تحت الحمراء، ومستشعرات التسارع (IMU)، والطيف الفائق. تعتمد الطريقة المقترحة على مُشفّرات مخصصة لكل وسيلة (modality-specific tokenizers)، وهيكل مُشترك من نوع الترانسفورمر (shared transformer architecture)، وآليات الانتباه المتبادل (cross-attention mechanisms)، لتحويل البيانات من الوسائط المختلفة إلى فضاء ترميز موحد. وتُعالج السيناريوهات متعددة الوسائط ومتعددة المهام من خلال دمج رؤوس مهام مخصصة لكل وسيلة حسب المهمة المطلوبة. كما نقترح استراتيجية تدريب مُسبق جديد، تعتمد على تبديل الوسائط بشكل تكراري، لتهيئة الشبكة، بالإضافة إلى خوارزمية تدريب تُوازن بين التدريب المشترك الكامل على جميع الوسائط، وبين التدريب على أزواج من الوسائط في كل مرة. ونُقدّم تقييمًا شاملاً عبر 25 مجموعة بيانات من 12 وسيلة مختلفة، ونُظهر أداءً يُعدّ من أفضل الأداءات الحالية، مما يُثبت فعالية المعمارية المقترحة، واستراتيجية التدريب المسبق، والتدريب المتعدد المهام المُعدّل.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
3d-point-cloud-classification-on-modelnet40-cOmniVec2
Error Rate: 0.142
3d-point-cloud-classification-on-scanobjectnnOmniVec2
Overall Accuracy: 97.2
action-classification-on-kinetics-400OmniVec2
Acc@1: 93.6
action-classification-on-moments-in-timeOmniVec2
Top 1 Accuracy: 53.1
action-classification-on-moments-in-time-2OmniVec2
Top 1 Accuracy: 53.1
action-recognition-in-videos-on-ucf101OmniVec2
3-fold Accuracy: 99.6
audio-classification-on-audiosetOmniVec2
Test mAP: 0.558
audio-classification-on-esc-50OmniVec2
Accuracy (5-fold): 99.1
PRE-TRAINING DATASET: Multiple
Top-1 Accuracy: 99.1
fine-grained-image-classification-on-oxford-1OmniVec2
Accuracy: 99.6
image-classification-on-imagenetOmniVec2
Top 1 Accuracy: 89.3%
image-classification-on-inaturalist-2018OmniVec2
Top-1 Accuracy: 94.6
image-classification-on-places365OmniVec2
Top 1 Accuracy: 65.1
semantic-segmentation-on-nyu-depth-v2OmniVec2
Mean IoU: 63.6
text-summarization-on-dialogsumOmniVec2
BertScore: 72.8
Rouge1: 47.6
Rouge2: 22.1
RougeL: 41.4
text-summarization-on-samsum-corpusOmniVec2
BertScoreF1: 65.1
ROUGE-1: 59.1
ROUGE-2: 34.1
ROUGE-L: 63.7
zero-shot-video-retrieval-on-youcook2OmniVec2
text-to-video R@1: 26.1
text-to-video R@10: 70.8
text-to-video R@5: 54.1

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp