منذ 17 أيام
تعزيز الشبكات التلافيفية بوساطة تجميع مبني على الانتباه
Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Piotr Bojanowski, Armand Joulin, Gabriel Synnaeve, Hervé Jégou

الملخص
نُظهر كيف يمكن تعزيز أي شبكة تلافيفية بخريطة عالمية تعتمد على الانتباه لتحقيق استدلال غير محلي. نستبدل التجميع المتوسط النهائي بطبقة تجميع تعتمد على الانتباه، مشابهة لكتلة تحويلة واحدة (Transformer block)، حيث تُوزّن كيفية مشاركة البُقع في اتخاذ قرار التصنيف. نُدمج هذه الطبقة المُتعلّمة للتجميع مع شبكة تلافيفية قائمة على البُقع، بسيطة وتمتّع ببارامترَين فقط (العرض والعمق). على عكس التصميم الهرمي، يحتفظ هذا الأسرة المعمارية بحلّة البُقع المدخلة عبر جميع الطبقات. ويُنتج هذا التصميم توازنًا مفاجئًا وقويًا بين الدقة والتعقيد، خصوصًا من حيث استهلاك الذاكرة، كما يُظهره تجاربنا على مهام مختلفة في الرؤية الحاسوبية: التصنيف الكائن، التجزئة الصورية، والكشف.