منذ 18 أيام
صورة تساوي 16×16 كلمة: نماذج التحويل للتمييز البصري على نطاق واسع
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

الملخص
بينما أصبحت بنية Transformer القياسية الفعلية للمهام المتعلقة معالجة اللغة الطبيعية، تظل تطبيقاتها في مجال الرؤية الحاسوبية محدودة. في مجال الرؤية، يُطبَّق الانتباه إما جنبًا إلى جنب مع الشبكات التلافيفية (CNN)، أو يُستخدم لاستبدال بعض المكونات داخل الشبكات التلافيفية مع الحفاظ على هيكلها العام. نُظهر أن الاعتماد على الشبكات التلافيفية ليس ضروريًا، ويمكن لـ Transformer الخالص أن يُطبَّق مباشرة على تسلسلات من قطع الصورة، ويُحقِّق أداءً ممتازًا في مهام تصنيف الصور. عند تدريبه على كميات كبيرة من البيانات، ثم نقله إلى عدة معايير متوسطة أو صغيرة لتمييز الصور (مثل ImageNet وCIFAR-100 وVTAB)، يُحقِّق نموذج Transformer للرؤية (ViT) نتائج ممتازة مقارنةً بأفضل الشبكات التلافيفية الحالية، مع الحاجة إلى موارد حوسبة أقل بشكل ملحوظ أثناء التدريب.