ZeroGen: تعلم صفرية فعّال من خلال توليد مجموعة بيانات

تزايد الاهتمام مؤخرًا بإنشاء مجموعات البيانات بسبب القدرة المتميزة على التوليد التي تمتلكها النماذج اللغوية الكبيرة المُدرّبة مسبقًا (PLMs). في هذه الورقة، ندرس طريقة مرنة وفعّالة للتعلم الصفرية، تُسمّى \textsc{ZeroGen}. عند إعطاء مهمة صفرية، نقوم أولًا بتوليد مجموعة بيانات من الصفر باستخدام النماذج اللغوية الكبيرة بشكل غير مراقب. ثم ندرّب نموذج مهمة صغير (مثل LSTM) باستخدام مجموعة البيانات المُولّدة كبيانات تدريب مُشرَفة. يُتيح هذا النهج استدلالًا فعّالًا جدًا، حيث يحتوي النموذج النهائي للمهمة على عدد من المعلمات يقلّ بعشرات المرات مقارنةً بالنماذج الكبيرة (مثل GPT2-XL). علاوةً على كونها خالية من التصنيف وفعّالة، نرى أن \textsc{ZeroGen} يمكن أن تقدّم رؤى مفيدة من منظور تقليل المعرفة القابلة للتطبيق على أي نموذج دون الحاجة إلى بيانات (data-free model-agnostic knowledge distillation)، وكذلك من منظور تقييم توليد النصوص دون مرجع (unreferenced text generation evaluation). أظهرت التجارب والتحليلات في مهام مختلفة في معالجة اللغة الطبيعية، مثل تصنيف النصوص، والإجابة على الأسئلة، والاستنتاج اللغوي الطبيعي، فعالية \textsc{ZeroGen}.