HyperAIHyperAI

Command Palette

Search for a command to run...

DINOv2: تعلّم ميزات بصرية قوية دون إشراف

الملخص

إن التقدم الأخير في معالجة اللغة الطبيعية لتدريب النماذج على كميات كبيرة من البيانات قد فتح الباب أمام نماذج أساسية مشابهة في مجال الرؤية الحاسوبية. يمكن لهذه النماذج تبسيط استخدام الصور في أي نظام من خلال إنتاج سمات بصرية متعددة الاستخدامات، أي سمات تعمل عبر توزيعات الصور والمهمات المختلفة دون الحاجة إلى التدريب المخصص (fine-tuning). تُظهر هذه الدراسة أن الطرق الحالية للتدريب المسبق، وخاصة الطرق الذاتية التدريب (self-supervised)، قادرة على إنتاج مثل هذه السمات إذا تم تدريبها على كميات كافية من البيانات المُنظَّمة من مصادر متنوعة. نعيد النظر في الأساليب الحالية ونجمع بين تقنيات مختلفة لتوسيع عملية التدريب المسبق من حيث حجم البيانات وحجم النموذج. وتهدف معظم المساهمات التقنية إلى تسريع وتحسين استقرار التدريب على نطاق واسع. من حيث البيانات، نقترح خط أنابيب تلقائيًا لبناء مجموعة بيانات صور مخصصة ومتنوعة ومنظمة، بدلًا من استخدام بيانات غير منظمة كما هو شائع في الأدبيات المتعلقة بالتدريب الذاتي. ومن حيث النماذج، نُدرّب نموذجًا من نوع ViT (Dosovitskiy et al., 2020) يحتوي على 1 مليار معلمة، ثم نُقلّد هذا النموذج إلى سلسلة من النماذج الأصغر، والتي تفوق أفضل السمات المتعددة الاستخدامات المتوفرة حاليًا، أي OpenCLIP (Ilharco et al., 2021)، في معظم المعايير على مستوى الصورة والبكسل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp