Command Palette
Search for a command to run...
صورة تساوي 16×16 كلمة: نماذج التحويل للتمييز البصري على نطاق واسع
صورة تساوي 16×16 كلمة: نماذج التحويل للتمييز البصري على نطاق واسع
الملخص
بينما أصبحت بنية Transformer القياسية الفعلية للمهام المتعلقة معالجة اللغة الطبيعية، تظل تطبيقاتها في مجال الرؤية الحاسوبية محدودة. في مجال الرؤية، يُطبَّق الانتباه إما جنبًا إلى جنب مع الشبكات التلافيفية (CNN)، أو يُستخدم لاستبدال بعض المكونات داخل الشبكات التلافيفية مع الحفاظ على هيكلها العام. نُظهر أن الاعتماد على الشبكات التلافيفية ليس ضروريًا، ويمكن لـ Transformer الخالص أن يُطبَّق مباشرة على تسلسلات من قطع الصورة، ويُحقِّق أداءً ممتازًا في مهام تصنيف الصور. عند تدريبه على كميات كبيرة من البيانات، ثم نقله إلى عدة معايير متوسطة أو صغيرة لتمييز الصور (مثل ImageNet وCIFAR-100 وVTAB)، يُحقِّق نموذج Transformer للرؤية (ViT) نتائج ممتازة مقارنةً بأفضل الشبكات التلافيفية الحالية، مع الحاجة إلى موارد حوسبة أقل بشكل ملحوظ أثناء التدريب.