HyperAIHyperAI
منذ 2 أشهر

الميزات العميقة لـ ViT كوصفاء بصرية كثيفة

Amir, Shir ; Gandelsman, Yossi ; Bagon, Shai ; Dekel, Tali
الميزات العميقة لـ ViT كوصفاء بصرية كثيفة
الملخص

ندرس استخدام الخصائص العميقة المستخرجة من نموذج متحول بصري مُدرب مسبقًا (Vision Transformer - ViT) كوصفاء بصرية كثيفة. نلاحظ ونبين تجريبيًا أن هذه الخصائص، عند استخراجها من نموذج ViT ذاتي الإشراف (DINO-ViT)، تظهر عدة خصائص ملفتة للنظر، بما في ذلك: (i) ترميز المعلومات الدلالية القوية والمحددة جيدًا بمعدل فضائي عالي، مثل أجزاء الأشياء؛ (ii) المعلومات الدلالية المترمزة مشتركة بين فئات الأشياء المرتبطة ولكن المختلفة؛ و (iii) التحيز الموضعي يتغير تدريجيًا عبر الطبقات. تسمح لنا هذه الخصائص بتصميم طرق بسيطة لتطبيقات متنوعة، بما في ذلك التقطيع المشترك، والتقطيع المشترك للأجزاء، والتوافق الدلالي. لاستخلاص قوة خصائص ViT من الخيارات التصميمية المعقدة، نقتصر على الأساليب الخفيفة التي لا تحتاج إلى إشراف مسبق (مثل التجزئة والتصنيف العنقودي) وتُطبق مباشرة على الخصائص. نظرًا لأن طرائقنا لا تتطلب أي تدريب إضافي أو بيانات، فهي قابلة للتطبيق الفوري في مجالات متنوعة. نوضح من خلال تقييم نوعي وكمي شامل أن أساليبنا البسيطة تحقق نتائج تنافسية مع الطرائق الإشرافية الحديثة الأكثر تقدمًا، وتتفوق بشكل كبير على الطرائق غير الإشرافية السابقة. الكود متاح في dino-vit-features.github.io.

الميزات العميقة لـ ViT كوصفاء بصرية كثيفة | أحدث الأوراق البحثية | HyperAI