Command Palette
Search for a command to run...
فرانكا: التجميع المضمن لتماثيل ماتريوشكا للتمثيل البصري القابل للتوسع
فرانكا: التجميع المضمن لتماثيل ماتريوشكا للتمثيل البصري القابل للتوسع
Shashanka Venkataramanan Valentinos Pariza Mohammadreza Salehi Lukas Knobel Spyros Gidaris Elias Ramzi Andrei Bursuc Yuki M. Asano
الملخص
نقدم فرانكا (تُنطق فران-كا): الحرة الأولى؛ وهي أول نموذج أساسي للرؤية مفتوح المصدر بالكامل (البيانات، الكود، الأوزان) الذي يتناسب ويتفوق في العديد من الحالات على أداء النماذج الخاصة الرائدة مثل DINOv2، CLIP، SigLIPv2 وغيرها. نهجنا يستند إلى خط أنابيب تدريب شفاف مستوحى من Web-SSL ويستخدم بيانات متاحة علنيًا: ImageNet-21K وجزءًا من ReLAION-2B. بالإضافة إلى إصدار النموذج، نعالج القيود الحرجة في طرق التجميع SSL. بينما تعتمد النماذج الحديثة على تعيين خصائص الصور إلى دفاتر رموز كبيرة عبر خوارزميات التجميع مثل Sinkhorn-Knopp، فإنها تفشل في مراعاة الغموض المتأصل في معاني التجميع. لحل هذه المشكلة، نقدم مشروع تجميع متعدد الرؤوس كفاءة المعلمات المستند إلى تمثيلات Matryoshka المركبة. هذا التصميم يقوم بتحسين الخصائص تدريجيًا إلى مجموعات أكثر دقة دون زيادة حجم النموذج، مما يتيح تحقيق كفاءة الأداء والذاكرة معًا. بالإضافة إلى ذلك، نقترح استراتيجية جديدة لفصل الموقع التي تقوم بإزالة التحيزات المكانية من التمثيلات الكثيفة، وبالتالي تحسين ترميز المحتوى الدلالي. هذا يؤدي إلى مكاسب ثابتة في عدة مقاييس لاحقة، مما يثبت فائدة الفضاءات ذات الخصائص الأنظف. إسهاماتنا تحدد معيارًا جديدًا للنماذج البصرية الشفافة عالية الأداء وتفتح طريقًا نحو نماذج أساسية أكثر قابلية للتكرار والعمومية للمجتمع الأوسع في الذكاء الاصطناعي. يمكن الوصول إلى الكود ونقاط تحكم النموذج على الرابط https://github.com/valeoai/Franca.