منذ 6 أشهر

الملخص

نقدّم OpenSeeD، وهي إطار عمل بسيط للتصنيف والكشف بفهوم مفتوح، يتعلم بشكل مشترك من مجموعات بيانات مختلفة للتصنيف والكشف. ولسد الفجوة بين المفردات ومستوى التفاصيل في التسميات، نقدّم أولًا مشغّل نصي مُدرّب مسبقًا لترميز جميع المفاهيم البصرية في المهمتين، ونُعلّم فضاءً معنويًا مشتركًا لهما. هذا يمنحنا نتائج معقولة مقارنة بالمناهج الأخرى التي تم تدريبها على مهمة التصنيف فقط. ولتحقيق تقارب أعمق، نحدد فجواتين رئيسيتين: (أ) الفجوة الوظيفية — حيث تتطلب مهمة التصنيف استخراج أقنعة لكل من الكائنات الأمامية والمواد الخلفية، بينما تهتم مهمة الكشف فقط بالكائنات الأمامية؛ (ب) الفجوة في البيانات — حيث تختلف دقة التسميات المكانية بين المربعات (boxes) والأنماط (masks)، وبالتالي لا يمكن استبدالها مباشرة. ولحل هذه المشكلات، نقترح تفكيك عملية التشفير (decoupled decoding) لتقليل التداخل بين الكائنات الأمامية والخلفية، ونُقدّم تشفيرًا مشروطًا للأنماط (conditioned mask decoding) لمساعدة في إنشاء الأنماط المقابلة للمربعات المعطاة. وبهذا، نطوّر نموذجًا بسيطًا من نوع المشغّل-المُفكّك (encoder-decoder) يدمج جميع التقنيات الثلاث، وندرّبه بشكل مشترك على مجموعتي بيانات COCO وObjects365. وبعد التدريب المسبق، يُظهر نموذجنا قدرة تنافسية أو أقوى على النقل الصفرية (zero-shot transferability) في كلا المهمتين. وبشكل خاص، يتفوّق OpenSeeD على أفضل الطرق الحالية في التصنيف المفتوح للInstances والبيانيات (panoptic segmentation) عبر 5 مجموعات بيانات، ويتفوّق على الطرق السابقة في الكشف المفتوح على LVIS وODinW ضمن نفس الإعدادات. عند نقل النموذج إلى مهام محددة، يحقّق أداءً جديدًا في أفضل الأداء (SoTA) في التصنيف البياني على COCO وADE20K، وفي التصنيف الفردي على ADE20K وCityscapes.في النهاية، نشير إلى أن OpenSeeD هو أول نموذج يُستكشف فيه الإمكانات المحتملة للتدريب المشترك على التصنيف والكشف، ونأمل أن يُقبل كأساس قوي لتطوير نموذج واحد قادر على تنفيذ كلا المهمتين في بيئة مفتوحة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إطار بسيط للتقسيم والكشف متعدد المفردات المفتوحة

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إطار بسيط للتقسيم والكشف متعدد المفردات المفتوحة

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إطار بسيط للتقسيم والكشف متعدد المفردات المفتوحة

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters