منذ 6 أشهر

الملخص

تُعد الكاشفات الحالية للكائنات ذات فئة مفتوحة عادةً مُقيَّدة بوجود مجموعة محددة مسبقًا من الفئات التي يحددها المستخدم، مما يحد بشكل كبير من سيناريوهات تطبيقها. في هذه الورقة، نقدم DetCLIPv3، وهو كاشف يتميز بأداء عالٍ، ويتفوق ليس فقط في كشف الكائنات ذات فئة مفتوحة، بل أيضًا في إنشاء تسميات هرمية للكائنات المكتشفة. يتميز DetCLIPv3 بثلاثة تصاميم أساسية:1. معمارية نموذج متنوعة: استخلصنا إطار عمل قوي للكشف عن الفئات المفتوحة، وتم تعزيز قدرته على التوليد من خلال دمج رأس تسمية (caption head).2. بيانات ذات كثافة معلومات عالية: طوّرنا عملية تسمية تلقائية تعتمد على النماذج الكبيرة للغة البصرية (visual large language model) لتحسين التسميات الخاصة بأزواج الصور والنصوص على نطاق واسع، مما يوفر تسميات غنية ومتعددة المقاييس للكائنات، ويعزز من عملية التدريب.3. استراتيجية تدريب فعّالة: استخدمنا مرحلة ما قبل التدريب باستخدام إدخالات منخفضة الدقة، مما يمكّن كاشف التسمية من تعلّم طيف واسع من المفاهيم البصرية من بيانات صور ونصوص واسعة النطاق بكفاءة. تليها مرحلة التحسين الدقيق (fine-tuning) التي تستفيد من عدد قليل من العينات عالية الدقة لتعزيز أداء الكشف بشكل أكبر. بفضل هذه التصاميم الفعّالة، تُظهر DetCLIPv3 أداءً متميزًا في كشف الكائنات ذات فئة مفتوحة، حيث حقق نموذج الأساس Swin-T لدينا نتيجة ملحوظة بـ 47.0 نقطة AP بدون تدريب (zero-shot fixed AP) على معيار LVIS minival، متفوّقًا على GLIPv2 وGroundingDINO وDetCLIPv2 بنسبة 18.0 و19.6 و6.6 نقطة AP على التوالي. كما حققت DetCLIPv3 أداءً متميزًا في مهمة التسمية الكثيفة (dense captioning) على مجموعة بيانات VG، بتحقيق 19.7 نقطة AP، مما يُظهر قدرتها القوية على التوليد.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DetCLIPv3: نحو كشف كائنات مفتوح المفردات توليدية متعددة الاستخدامات

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DetCLIPv3: نحو كشف كائنات مفتوح المفردات توليدية متعددة الاستخدامات

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DetCLIPv3: نحو كشف كائنات مفتوح المفردات توليدية متعددة الاستخدامات

Lewei Yao Renjie Pi Jianhua Han Xiaodan Liang Hang Xu Wei Zhang Zhenguo Li Dan Xu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters