HyperAIHyperAI

Command Palette

Search for a command to run...

الميزات العميقة لـ ViT كوصفاء بصرية كثيفة

Shir Amir Yossi Gandelsman Shai Bagon Tali Dekel

الملخص

ندرس استخدام الخصائص العميقة المستخرجة من نموذج متحول بصري مُدرب مسبقًا (Vision Transformer - ViT) كوصفاء بصرية كثيفة. نلاحظ ونبين تجريبيًا أن هذه الخصائص، عند استخراجها من نموذج ViT ذاتي الإشراف (DINO-ViT)، تظهر عدة خصائص ملفتة للنظر، بما في ذلك: (i) ترميز المعلومات الدلالية القوية والمحددة جيدًا بمعدل فضائي عالي، مثل أجزاء الأشياء؛ (ii) المعلومات الدلالية المترمزة مشتركة بين فئات الأشياء المرتبطة ولكن المختلفة؛ و (iii) التحيز الموضعي يتغير تدريجيًا عبر الطبقات. تسمح لنا هذه الخصائص بتصميم طرق بسيطة لتطبيقات متنوعة، بما في ذلك التقطيع المشترك، والتقطيع المشترك للأجزاء، والتوافق الدلالي. لاستخلاص قوة خصائص ViT من الخيارات التصميمية المعقدة، نقتصر على الأساليب الخفيفة التي لا تحتاج إلى إشراف مسبق (مثل التجزئة والتصنيف العنقودي) وتُطبق مباشرة على الخصائص. نظرًا لأن طرائقنا لا تتطلب أي تدريب إضافي أو بيانات، فهي قابلة للتطبيق الفوري في مجالات متنوعة. نوضح من خلال تقييم نوعي وكمي شامل أن أساليبنا البسيطة تحقق نتائج تنافسية مع الطرائق الإشرافية الحديثة الأكثر تقدمًا، وتتفوق بشكل كبير على الطرائق غير الإشرافية السابقة. الكود متاح في dino-vit-features.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp