HyperAIHyperAI
منذ 2 أشهر

فلورنس: نموذج أساسي جديد لرؤية الحاسوب

Lu Yuan; Dongdong Chen; Yi-Ling Chen; Noel Codella; Xiyang Dai; Jianfeng Gao; Houdong Hu; Xuedong Huang; Boxin Li; Chunyuan Li; Ce Liu; Mengchen Liu; Zicheng Liu; Yumao Lu; Yu Shi; Lijuan Wang; Jianfeng Wang; Bin Xiao; Zhen Xiao; Jianwei Yang; Michael Zeng; Luowei Zhou; Pengchuan Zhang
فلورنس: نموذج أساسي جديد لرؤية الحاسوب
الملخص

فهم البصر الآلي لعالمنا المتنوع والمفتوح يتطلب من نماذج الرؤية الحاسوبية أن تعمم بشكل جيد مع أقل قدر ممكن من التخصيص للمهام المحددة، مشابهًا للرؤية البشرية. تعتبر نماذج الرؤية الحاسوبية الأساسية التي يتم تدريبها على مجموعة بيانات متنوعة وواسعة النطاق والتي يمكن تكييفها لمجموعة واسعة من المهام اللاحقة حاسمة لتحقيق هذا الهدف في حل التطبيقات الحقيقية للرؤية الحاسوبية. بينما تركز النماذج الأساسية للرؤية الحالية مثل CLIP وALIGN وWu Dao 2.0 بشكل أساسي على رسم خرائط الصور والتمثيلات النصية إلى تمثيل مشترك متعدد الوسائط، فإننا نقدم نموذج رؤية حاسوبية جديد يُدعى Florence لتوسيع التمثيلات من الخشنة (المشهد) إلى الدقيقة (الكائن)، ومن الثابتة (الصور) إلى الديناميكية (مقاطع الفيديو)، ومن RGB إلى عدة أوضاع (التعليق، العمق). من خلال دمج التمثيلات البصرية-اللغوية الشاملة من بيانات الصور والنصوص على نطاق الويب، يمكن تكييف نموذج Florence بسهولة لأداء مهام الرؤية الحاسوبية المختلفة مثل التصنيف والاسترجاع وكشف الكائنات وVQA وإضافة التعليق للصور واسترجاع مقاطع الفيديو وتعرف الأنشطة. بالإضافة إلى ذلك، يظهر Florence أداءً متميزًا في العديد من أنواع التعلم بالنقل: التحسين الدقيق الكامل، الاستكشاف الخطي، النقل ذو القليل من الأمثلة والنقل بدون أمثلة لصور وكائنات جديدة. تعتبر جميع هذه الخصائص حاسمة لنموذجنا الأساسي للرؤية ليقوم بمهام الرؤية العامة. حقق Florence أفضل النتائج الجديدة في معظم 44 معيارًا تمثيليًا، مثل تصنيف ImageNet-1K بدون أمثلة بدقة 83.74٪ في المركز الأول و97.18٪ في المركز الخامس، ومعدل دقة COCO بعد التحسين الدقيق بنسبة 62.4 mAP، ونسبة صحة VQA 80.36٪، ومعدل صحة Kinetics-600 بنسبة 87.8٪.

فلورنس: نموذج أساسي جديد لرؤية الحاسوب | أحدث الأوراق البحثية | HyperAI