ViLT: محول الرؤية واللغة بدون الت". 请注意,这里的翻译可能需要进一步优化以符合SCI/SSCI期刊的风格。以下是一个更正式的版本: ViLT: محول الرؤية واللغة دون استخدام التفتيش أو الإشراف الإقليمي

التدريب المسبق للرؤية واللغة (VLP) قد أدى إلى تحسين الأداء في مجموعة متنوعة من المهام النهائية المشتركة بين الرؤية واللغة. تعتمد الطرق الحالية لـ VLP بشكل كبير على عمليات استخراج الخصائص الصورية، والتي تشمل معظمها الإشراف الإقليمي (مثل اكتشاف الكائنات) والهيكل الشبكي التوافقي (مثل ResNet). رغم إهمال هذه المسألة في الأدبيات العلمية، نجد أنها مشكلة من حيث (1) الكفاءة/السرعة، حيث أن استخراج الخصائص الدخل ببساطة يتطلب حسابات أكثر بكثير من خطوات التفاعل متعدد الوسائط؛ و(2) القوة التعبيرية، فهي مقيدة بأعلى حد للقوة التعبيرية للمدمج البصري ولغته البصرية المحددة مسبقًا. في هذا البحث، نقدم نموذج VLP بسيطًا الحد الأدنى، وهو محول الرؤية واللغة (ViLT)، بمفهوم موحد بحيث يتم تبسيط معالجة المدخلات البصرية بشكل كبير إلى نفس الطريقة الخالية من الشبكات التوافقية التي نعالج بها المدخلات النصية. نظهر أن ViLT أسرع بمقدار عشرات المرات من النماذج السابقة لـ VLP، ومع ذلك يحقق أداءً تنافسيًا أو أفضل في المهام النهائية. رمزنا ومعلماتنا المسبقة متاحة على https://github.com/dandelin/vilt.