HyperAIHyperAI

Command Palette

Search for a command to run...

صورة تساوي 16×16 كلمة: نماذج التحويل للتمييز البصري على نطاق واسع

الملخص

بينما أصبحت بنية Transformer القياسية الفعلية للمهام المتعلقة معالجة اللغة الطبيعية، تظل تطبيقاتها في مجال الرؤية الحاسوبية محدودة. في مجال الرؤية، يُطبَّق الانتباه إما جنبًا إلى جنب مع الشبكات التلافيفية (CNN)، أو يُستخدم لاستبدال بعض المكونات داخل الشبكات التلافيفية مع الحفاظ على هيكلها العام. نُظهر أن الاعتماد على الشبكات التلافيفية ليس ضروريًا، ويمكن لـ Transformer الخالص أن يُطبَّق مباشرة على تسلسلات من قطع الصورة، ويُحقِّق أداءً ممتازًا في مهام تصنيف الصور. عند تدريبه على كميات كبيرة من البيانات، ثم نقله إلى عدة معايير متوسطة أو صغيرة لتمييز الصور (مثل ImageNet وCIFAR-100 وVTAB)، يُحقِّق نموذج Transformer للرؤية (ViT) نتائج ممتازة مقارنةً بأفضل الشبكات التلافيفية الحالية، مع الحاجة إلى موارد حوسبة أقل بشكل ملحوظ أثناء التدريب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
صورة تساوي 16×16 كلمة: نماذج التحويل للتمييز البصري على نطاق واسع | مستندات | HyperAI