الملخص

فهم البصر الآلي لعالمنا المتنوع والمفتوح يتطلب من نماذج الرؤية الحاسوبية أن تعمم بشكل جيد مع أقل قدر ممكن من التخصيص للمهام المحددة، مشابهًا للرؤية البشرية. تعتبر نماذج الرؤية الحاسوبية الأساسية التي يتم تدريبها على مجموعة بيانات متنوعة وواسعة النطاق والتي يمكن تكييفها لمجموعة واسعة من المهام اللاحقة حاسمة لتحقيق هذا الهدف في حل التطبيقات الحقيقية للرؤية الحاسوبية. بينما تركز النماذج الأساسية للرؤية الحالية مثل CLIP وALIGN وWu Dao 2.0 بشكل أساسي على رسم خرائط الصور والتمثيلات النصية إلى تمثيل مشترك متعدد الوسائط، فإننا نقدم نموذج رؤية حاسوبية جديد يُدعى Florence لتوسيع التمثيلات من الخشنة (المشهد) إلى الدقيقة (الكائن)، ومن الثابتة (الصور) إلى الديناميكية (مقاطع الفيديو)، ومن RGB إلى عدة أوضاع (التعليق، العمق). من خلال دمج التمثيلات البصرية-اللغوية الشاملة من بيانات الصور والنصوص على نطاق الويب، يمكن تكييف نموذج Florence بسهولة لأداء مهام الرؤية الحاسوبية المختلفة مثل التصنيف والاسترجاع وكشف الكائنات وVQA وإضافة التعليق للصور واسترجاع مقاطع الفيديو وتعرف الأنشطة. بالإضافة إلى ذلك، يظهر Florence أداءً متميزًا في العديد من أنواع التعلم بالنقل: التحسين الدقيق الكامل، الاستكشاف الخطي، النقل ذو القليل من الأمثلة والنقل بدون أمثلة لصور وكائنات جديدة. تعتبر جميع هذه الخصائص حاسمة لنموذجنا الأساسي للرؤية ليقوم بمهام الرؤية العامة. حقق Florence أفضل النتائج الجديدة في معظم 44 معيارًا تمثيليًا، مثل تصنيف ImageNet-1K بدون أمثلة بدقة 83.74٪ في المركز الأول و97.18٪ في المركز الخامس، ومعدل دقة COCO بعد التحسين الدقيق بنسبة 62.4 mAP، ونسبة صحة VQA 80.36٪، ومعدل صحة Kinetics-600 بنسبة 87.8٪.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

فلورنس: نموذج أساسي جديد لرؤية الحاسوب

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فلورنس: نموذج أساسي جديد لرؤية الحاسوب

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

فلورنس: نموذج أساسي جديد لرؤية الحاسوب

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li

Lu Yuan Dongdong Chen Yi-Ling Chen Noel Codella Xiyang Dai Jianfeng Gao Houdong Hu Xuedong Huang Boxin Li Chunyuan Li