Command Palette
Search for a command to run...
تعلم ذاتي فعّال مع تمثيلات هدف مُحتَوَية سياقيًا للرؤية والصوت واللغة
تعلم ذاتي فعّال مع تمثيلات هدف مُحتَوَية سياقيًا للرؤية والصوت واللغة
Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli
الملخص
الخوارزميات الحالية للتعلم الذاتي المُشرَّف غالبًا ما تكون مخصصة للنوعية (الموداليتية) وتحتاج إلى كميات كبيرة من الموارد الحاسوبية. ولحل هذه المشكلات، نزيد من كفاءة التدريب في data2vec، وهي هدف تعلُّم يُعمَّم عبر عدة أنواع. لا نُشفَّر الرموز المُخفيّة، ونستخدم مشفرًا تبادليًا سريعًا، ونُقلّل الجهد المطلوب لبناء تمثيلات المُعلّم. يُستفيد data2vec 2.0 من التمثيلات الهدف الغنية بالسياق التي أُدخلت في data2vec، مما يمكّن من بناء مُتعلّم ذاتي سريع. أظهرت التجارب على تصنيف الصور في ImageNet-1K أن data2vec 2.0 يُحقق دقة مماثلة لـ Masked Autoencoders في وقت تدريب مسبق أقل بنسبة 16.4 مرة، وفي مهمة التعرف على الكلام على Librispeech أظهر أداءً مماثلًا لـ wav2vec 2.0 في وقت أقل بنسبة 10.6 مرة، كما تحقق دقة مماثلة لنموذج RoBERTa المُعاد تدريبه على مجموعة GLUE في نصف الوقت. وباستبدال جزء من السرعة بزيادة الدقة، تم تحقيق دقة Top-1 قدرها 86.8% على ImageNet-1K باستخدام نموذج ViT-L مدربًا لمدة 150 دورة.