HyperAIHyperAI
منذ 11 أيام

DINOv2: تعلّم ميزات بصرية قوية دون إشراف

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, Mahmoud Assran, Nicolas Ballas, Wojciech Galuba, Russell Howes, Po-Yao Huang, Shang-Wen Li, Ishan Misra, Michael Rabbat, Vasu Sharma, Gabriel Synnaeve, Hu Xu, Hervé Jegou, Julien Mairal, Patrick Labatut, Armand Joulin, Piotr Bojanowski
DINOv2: تعلّم ميزات بصرية قوية دون إشراف
الملخص

إن التقدم الأخير في معالجة اللغة الطبيعية لتدريب النماذج على كميات كبيرة من البيانات قد فتح الباب أمام نماذج أساسية مشابهة في مجال الرؤية الحاسوبية. يمكن لهذه النماذج تبسيط استخدام الصور في أي نظام من خلال إنتاج سمات بصرية متعددة الاستخدامات، أي سمات تعمل عبر توزيعات الصور والمهمات المختلفة دون الحاجة إلى التدريب المخصص (fine-tuning). تُظهر هذه الدراسة أن الطرق الحالية للتدريب المسبق، وخاصة الطرق الذاتية التدريب (self-supervised)، قادرة على إنتاج مثل هذه السمات إذا تم تدريبها على كميات كافية من البيانات المُنظَّمة من مصادر متنوعة. نعيد النظر في الأساليب الحالية ونجمع بين تقنيات مختلفة لتوسيع عملية التدريب المسبق من حيث حجم البيانات وحجم النموذج. وتهدف معظم المساهمات التقنية إلى تسريع وتحسين استقرار التدريب على نطاق واسع. من حيث البيانات، نقترح خط أنابيب تلقائيًا لبناء مجموعة بيانات صور مخصصة ومتنوعة ومنظمة، بدلًا من استخدام بيانات غير منظمة كما هو شائع في الأدبيات المتعلقة بالتدريب الذاتي. ومن حيث النماذج، نُدرّب نموذجًا من نوع ViT (Dosovitskiy et al., 2020) يحتوي على 1 مليار معلمة، ثم نُقلّد هذا النموذج إلى سلسلة من النماذج الأصغر، والتي تفوق أفضل السمات المتعددة الاستخدامات المتوفرة حاليًا، أي OpenCLIP (Ilharco et al., 2021)، في معظم المعايير على مستوى الصورة والبكسل.

DINOv2: تعلّم ميزات بصرية قوية دون إشراف | أحدث الأوراق البحثية | HyperAI