تحسين تجميع الصور من خلال تخفيف الأثر عبر هندسة الانتباه في وقت الاستدلال

هدف هذه الورقة هو تحسين أداء نماذج Vision Transformer (ViT) المدربة مسبقًا، وخاصة DINOv2، في مهمة تجميع الصور دون الحاجة إلى إعادة التدريب أو التعديل الدقيق. مع زيادة حجم النموذج، تظهر ظاهرة الشوائب ذات القيم العالية (high-norm artifacts) في بقع الانتباه متعدد الرؤوس (multi-head attention). لقد لاحظنا أن هذه الشوائب تؤدي إلى انخفاض الدقة في تجميع الصور بدون تدريب مسبق (zero-shot image clustering). يتميز هذه الشوائب بوجود قيم غير متناسبة كبيرة في خريطة الانتباه مقارنة ببقع الرموز الأخرى (patch tokens). لمعالجة هذه الشوائب، نقترح نهجًا يُسمى هندسة الانتباه أثناء الاستدلال (Inference-Time Attention Engineering - ITAE)، والذي يقوم بتعديل دالة الانتباه خلال مرحلة الاستدلال. تحديدًا، نحدد الشوائب من خلال دراسة أحد بقع Query-Key-Value (QKV) في انتباه متعدد الرؤوس ونخفض قيم الانتباه المرتبطة بها داخل النماذج المدربة مسبقًا. يظهر ITAE تحسنًا في دقة التجميع على عدة مجموعات بيانات من خلال إظهار خصائص أكثر تعبرية في الفضاء الكامن (latent space). تؤكد نتائجنا على إمكانية استخدام ITAE كحل عملي لتقليل الشوائب في نماذج ViT المدربة مسبقًا وتحسين أداء النموذج في مهام التجميع دون الحاجة إلى إعادة التدريب أو التعديل الدقيق.