Command Palette
Search for a command to run...
data2vec: إطار عام للتعلم الذاتي التوجيهي في الصوتيات والرؤية واللغة
data2vec: إطار عام للتعلم الذاتي التوجيهي في الصوتيات والرؤية واللغة
Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli
الملخص
بينما يظل المفهوم العام للتعلم الذاتي التلقائي متماثلاً عبر الوسائط المختلفة، فإن الخوارزميات والأهداف الفعلية تختلف بشكل كبير، وذلك لأنها طُوّرت بعين الاعتبار وسيلة واحدة فقط. وللتمهيد نحو التعلم الذاتي التلقائي العام، نقدّم إطار العمل data2vec، الذي يستخدم نفس طريقة التعلّم في مجالات مختلفة مثل الكلام، معالجة اللغة الطبيعية (NLP)، ورؤية الحاسوب. الفكرة الأساسية تكمن في التنبؤ بتمثيلات مخفية للبيانات الكاملة بناءً على نظرة مُقنّعة (مُعَمَّية) للبيانات المدخلة، ضمن بيئة تعلم ذاتي تُشَبِّه (self-distillation) باستخدام بنية معيارية من نوع Transformer. بدلًا من التنبؤ بأهداف محددة حسب الوسيلة، مثل الكلمات أو الرموز البصرية أو وحدات الكلام البشري—which هي طبيعتها محلية—يُنبِّئ data2vec بتمثيلات مخفية مُحتَوَية على سياق، وتتضمن معلومات من جميع أجزاء البيانات المدخلة. وقد أظهرت التجارب على المعايير الرئيسية في التعرف على الكلام، وتصنيف الصور، وفهم اللغة الطبيعية، أداءً يُمثّل حالة جديدة من الأفضلية أو أداءً تنافسيًا مع الأساليب السائدة.