
لقد وجدت النماذج القائمة على التحويل البصري (ViTs) استخدامًا عمليًا محدودًا في معالجة الصور، رغم دقتها القياسية على بعض المعايير. ويعود السبب في هذا الاستخدام المحدود إلى حاجتها لقواعد بيانات تدريب أكبر، وموارد حوسبة أكثر مقارنةً بالشبكات العصبية التلافيفية (CNNs)، وذلك بسبب التعقيد التربيعي لآلية الانتباه الذاتي. نقترح معمارية هجينة مبنية على الانتباه الخطي والتفصيل التلافيفي – تُسمى "المحولات التلافيفية للرؤية" (Convolutional X-formers for Vision (CXV)) – للتغلب على هذه القيود. نستبدل الانتباه التربيعي بآليات انتباه خطية، مثل Performer وNyströmformer وLinear Transformer، بهدف تقليل استهلاك وحدات معالجة الرسومات (GPU). كما نوفر معلومات استنتاجية (inductive prior) للبيانات البصرية من خلال وحدات تلافيفية فرعية، مما يُلغِي الحاجة إلى استخدام رمز الفئة (class token) والتمثيلات المكانية (positional embeddings) التي تُستخدم في نماذج ViTs. بالإضافة إلى ذلك، نقترح طريقة تدريب جديدة نستخدم فيها مُحسِّنَين مختلفين خلال مراحل مختلفة من التدريب، ونُظهر أن هذه الطريقة تُحسِّن دقة التصنيف الصوتي (top-1) في تصنيف الصور عبر معماريّات مختلفة. وتتفوّق CXV على غيرها من المعماريّات، بما في ذلك مُختَلِطات الرموز (مثل ConvMixer وFNet وMLP Mixer)، والنماذج القائمة على التحويل (مثل ViT وCCT وCvT والمحولات الهجينة)، والشبكات العصبية المُعادَة (ResNets) في مهام تصنيف الصور في السياقات التي تفتقر إلى البيانات والموارد الحاسوبية المحدودة (عدد النوى، الذاكرة العشوائية، الطاقة).