HyperAIHyperAI

Command Palette

Search for a command to run...

فلورنس: نموذج أساسي جديد لرؤية الحاسوب

الملخص

فهم البصر الآلي لعالمنا المتنوع والمفتوح يتطلب من نماذج الرؤية الحاسوبية أن تعمم بشكل جيد مع أقل قدر ممكن من التخصيص للمهام المحددة، مشابهًا للرؤية البشرية. تعتبر نماذج الرؤية الحاسوبية الأساسية التي يتم تدريبها على مجموعة بيانات متنوعة وواسعة النطاق والتي يمكن تكييفها لمجموعة واسعة من المهام اللاحقة حاسمة لتحقيق هذا الهدف في حل التطبيقات الحقيقية للرؤية الحاسوبية. بينما تركز النماذج الأساسية للرؤية الحالية مثل CLIP وALIGN وWu Dao 2.0 بشكل أساسي على رسم خرائط الصور والتمثيلات النصية إلى تمثيل مشترك متعدد الوسائط، فإننا نقدم نموذج رؤية حاسوبية جديد يُدعى Florence لتوسيع التمثيلات من الخشنة (المشهد) إلى الدقيقة (الكائن)، ومن الثابتة (الصور) إلى الديناميكية (مقاطع الفيديو)، ومن RGB إلى عدة أوضاع (التعليق، العمق). من خلال دمج التمثيلات البصرية-اللغوية الشاملة من بيانات الصور والنصوص على نطاق الويب، يمكن تكييف نموذج Florence بسهولة لأداء مهام الرؤية الحاسوبية المختلفة مثل التصنيف والاسترجاع وكشف الكائنات وVQA وإضافة التعليق للصور واسترجاع مقاطع الفيديو وتعرف الأنشطة. بالإضافة إلى ذلك، يظهر Florence أداءً متميزًا في العديد من أنواع التعلم بالنقل: التحسين الدقيق الكامل، الاستكشاف الخطي، النقل ذو القليل من الأمثلة والنقل بدون أمثلة لصور وكائنات جديدة. تعتبر جميع هذه الخصائص حاسمة لنموذجنا الأساسي للرؤية ليقوم بمهام الرؤية العامة. حقق Florence أفضل النتائج الجديدة في معظم 44 معيارًا تمثيليًا، مثل تصنيف ImageNet-1K بدون أمثلة بدقة 83.74٪ في المركز الأول و97.18٪ في المركز الخامس، ومعدل دقة COCO بعد التحسين الدقيق بنسبة 62.4 mAP، ونسبة صحة VQA 80.36٪، ومعدل صحة Kinetics-600 بنسبة 87.8٪.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فلورنس: نموذج أساسي جديد لرؤية الحاسوب | مستندات | HyperAI