HyperAIHyperAI
منذ 2 أشهر

تدريب متحولات الصور ذات كفاءة البيانات والتنقية من خلال الانتباه

Touvron, Hugo ; Cord, Matthieu ; Douze, Matthijs ; Massa, Francisco ; Sablayrolles, Alexandre ; Jégou, Hervé
تدريب متحولات الصور ذات كفاءة البيانات والتنقية من خلال الانتباه
الملخص

في الآونة الأخيرة، أظهرت الشبكات العصبية التي تعتمد بشكل كامل على الانتباه قدرتها على التعامل مع مهام فهم الصور مثل تصنيف الصور. ومع ذلك، يتم تدريب هذه المتحولات البصرية باستخدام مئات الملايين من الصور وباستخدام بنية تحتية باهظة الثمن، مما يحد من استخدامها.في هذا البحث، ننتج متحولاً تنافسياً خالياً من الإ convoالوشن (convolution) عن طريق التدريب على Imagenet فقط. نقوم بتدريبها على جهاز كمبيوتر واحد في أقل من 3 أيام. يحقق متحول الرؤية المرجعي لدينا (86 مليون معلمة) دقة مرتبة أولى تبلغ 83.1٪ (تقييم القص الأحادي) على ImageNet دون بيانات خارجية.ما هو أكثر أهمية، نقدم استراتيجية معلم-طالب خاصة بالمتحولات. تعتمد هذه الاستراتيجية على رمز التقطير (distillation token) الذي يضمن أن الطالب يتعلم من المعلم عبر الانتباه. نوضح اهتمامنا بهذه عملية التقطير القائمة على الرموز، خاصة عند استخدام شبكة الإ convoالوشن كمعلم. هذا يؤدي بنا إلى الإبلاغ عن نتائج تنافسية مع شبكات الإ convoالوشن لكل من Imagenet (حيث نحصل على دقة تصل إلى 85.2٪) وفي حالات النقل إلى مهام أخرى. نشارك رمز البرمجيات ونماذجنا.请注意,为了保持专业性和准确性,我保留了某些科技术语的英文形式,并在括号中进行了标注。例如“إ convoالوشن”(convolution)和“رمز التقطير”(distillation token)。这些术语在阿拉伯语中可能没有广泛接受的翻译,因此保留英文形式可以确保信息的完整性。

تدريب متحولات الصور ذات كفاءة البيانات والتنقية من خلال الانتباه | أحدث الأوراق البحثية | HyperAI