فلورنس: نموذج أساسي جديد لرؤية الحاسوب

فهم البصر الآلي لعالمنا المتنوع والمفتوح يتطلب من نماذج الرؤية الحاسوبية أن تعمم بشكل جيد مع أقل قدر ممكن من التخصيص للمهام المحددة، مشابهًا للرؤية البشرية. تعتبر نماذج الرؤية الحاسوبية الأساسية التي يتم تدريبها على مجموعة بيانات متنوعة وواسعة النطاق والتي يمكن تكييفها لمجموعة واسعة من المهام اللاحقة حاسمة لتحقيق هذا الهدف في حل التطبيقات الحقيقية للرؤية الحاسوبية. بينما تركز النماذج الأساسية للرؤية الحالية مثل CLIP وALIGN وWu Dao 2.0 بشكل أساسي على رسم خرائط الصور والتمثيلات النصية إلى تمثيل مشترك متعدد الوسائط، فإننا نقدم نموذج رؤية حاسوبية جديد يُدعى Florence لتوسيع التمثيلات من الخشنة (المشهد) إلى الدقيقة (الكائن)، ومن الثابتة (الصور) إلى الديناميكية (مقاطع الفيديو)، ومن RGB إلى عدة أوضاع (التعليق، العمق). من خلال دمج التمثيلات البصرية-اللغوية الشاملة من بيانات الصور والنصوص على نطاق الويب، يمكن تكييف نموذج Florence بسهولة لأداء مهام الرؤية الحاسوبية المختلفة مثل التصنيف والاسترجاع وكشف الكائنات وVQA وإضافة التعليق للصور واسترجاع مقاطع الفيديو وتعرف الأنشطة. بالإضافة إلى ذلك، يظهر Florence أداءً متميزًا في العديد من أنواع التعلم بالنقل: التحسين الدقيق الكامل، الاستكشاف الخطي، النقل ذو القليل من الأمثلة والنقل بدون أمثلة لصور وكائنات جديدة. تعتبر جميع هذه الخصائص حاسمة لنموذجنا الأساسي للرؤية ليقوم بمهام الرؤية العامة. حقق Florence أفضل النتائج الجديدة في معظم 44 معيارًا تمثيليًا، مثل تصنيف ImageNet-1K بدون أمثلة بدقة 83.74٪ في المركز الأول و97.18٪ في المركز الخامس، ومعدل دقة COCO بعد التحسين الدقيق بنسبة 62.4 mAP، ونسبة صحة VQA 80.36٪، ومعدل صحة Kinetics-600 بنسبة 87.8٪.