Command Palette
Search for a command to run...
التدريب المسبق التوليدي من البكسلات
التدريب المسبق التوليدي من البكسلات
Mark Chen Jeff Wu Rewon Child Ilya Sutskever David Luan Alec Radford Heewoo Jun Prafulla Dhariwal
الملخص
مُلهمين بالتقدم المحرز في التعلم غير المراقب للتمثيلات في اللغة الطبيعية، نستعرض ما إذا كانت نماذج مشابهة قادرة على تعلم تمثيلات مفيدة للصور. نُدرّب نموذج ترانسفورمر تسلسلي للتنبؤ بالبكسلات بشكل ذاتي-مُتسلسل، دون استخدام أي معرفة بالهيكل ثنائي الأبعاد للمدخلات. وعلى الرغم من تدريب النموذج على صور ImageNet منخفضة الدقة دون تسميات، نجد أن نموذج بحجم GPT-2 يتعلم تمثيلات قوية للصور، كما يُقاس ذلك من خلال اختبارات التحديد الخطي، والضبط الدقيق، والتصنيف بكمية بيانات منخفضة. على مجموعة بيانات CIFAR-10، نحقق دقة قدرها 96.3% باستخدام اختبار التحديد الخطي، متفوّقًا على نموذج Wide ResNet المدرب بطرق مراقبة، ونصل إلى دقة 99.0% عند التدريب الكامل، مُعادلًا أفضل النماذج المدربة مسبقًا باستخدام طرق مراقبة. كما أن نموذج أكبر، تم تدريبه على مزيج من صور ImageNet وصور الويب، يُظهر تنافسية مع النماذج ذاتية التعلم على ImageNet، حيث يحقق دقة قدرها 72.0% في اختبار التحديد الخطي لتمثيلاتنا.