HyperAIHyperAI
منذ 2 أيام

دينوف3

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
دينوف3
الملخص

تحظى التعلم ذاتي التوجيه بقدرة واعدة على التخلص من الحاجة إلى التسمية اليدوية للبيانات، مما يمكّن النماذج من التوسع بسلاسة عبر مجموعات بيانات ضخمة وبنية أكبر. وبما أنها لا تُصمم خصيصًا لمهام أو مجالات محددة، فإن هذه منهجية التدريب تمتلك القدرة على تعلم تمثيلات بصرية من مصادر متنوعة، تتراوح بين الصور الطبيعية والصور الجوية – باستخدام خوارزمية واحدة فقط. ويقدّم هذا التقرير التقني نموذج DINOv3، الذي يُعدّ خطوة كبيرة نحو تحقيق هذه الرؤية، وذلك من خلال الاستفادة من استراتيجيات بسيطة ولكن فعّالة. أولاً، نستفيد من فوائد التوسع في حجم مجموعة البيانات وحجم النموذج من خلال إعداد دقيق للبيانات، وتصميم متقن، وتحسين فعّال. ثانيًا، نقدّم طريقة جديدة تُسمى "الربط الجرامي" (Gram anchoring)، التي تتعامل بشكل فعّال مع المشكلة المعروفة وغير المحلولة المتعلقة بتدهور خرائط الميزات الكثيفة خلال فترات تدريب طويلة. ثالثًا، نطبّق استراتيجيات ما بعد التدريب (post-hoc) التي تُعزز بشكل إضافي مرونة نماذجنا فيما يتعلق بالدقة، وحجم النموذج، والتماثل مع النصوص. وبذلك، نقدّم نموذجًا أساسيًا بصريًا متعدد الاستخدامات يتفوّق على أحدث النماذج المتخصصة في مجموعة واسعة من السياقات، دون الحاجة إلى التخصيص (fine-tuning). ويُنتج DINOv3 ميزات كثيفة عالية الجودة، تحقق أداءً متميزًا في مهام بصرية متنوعة، وتتفوّق بشكل كبير على النماذج الأساسية السابقة التي تعتمد على التعلم الذاتي أو التعلم الضعيف. كما نُشارك أيضًا مجموعة نماذج DINOv3 للرؤية، المصممة لدفع عجلة التقدم في مستوى الأداء على طيف واسع من المهام والبيانات، من خلال توفير حلول قابلة للتوسع تلبي مختلف القيود المواردية وسياقات التنفيذ.

دينوف3 | أحدث الأوراق البحثية | HyperAI