HyperAIHyperAI

Command Palette

Search for a command to run...

إطار بسيط للتقسيم والكشف متعدد المفردات المفتوحة

Hao Zhang Feng Li Xueyan Zou Shilong Liu Chunyuan Li Jianfeng Gao Jianwei Yang Lei Zhang

الملخص

نقدّم OpenSeeD، وهي إطار عمل بسيط للتصنيف والكشف بفهوم مفتوح، يتعلم بشكل مشترك من مجموعات بيانات مختلفة للتصنيف والكشف. ولسد الفجوة بين المفردات ومستوى التفاصيل في التسميات، نقدّم أولًا مشغّل نصي مُدرّب مسبقًا لترميز جميع المفاهيم البصرية في المهمتين، ونُعلّم فضاءً معنويًا مشتركًا لهما. هذا يمنحنا نتائج معقولة مقارنة بالمناهج الأخرى التي تم تدريبها على مهمة التصنيف فقط. ولتحقيق تقارب أعمق، نحدد فجواتين رئيسيتين: (أ) الفجوة الوظيفية — حيث تتطلب مهمة التصنيف استخراج أقنعة لكل من الكائنات الأمامية والمواد الخلفية، بينما تهتم مهمة الكشف فقط بالكائنات الأمامية؛ (ب) الفجوة في البيانات — حيث تختلف دقة التسميات المكانية بين المربعات (boxes) والأنماط (masks)، وبالتالي لا يمكن استبدالها مباشرة. ولحل هذه المشكلات، نقترح تفكيك عملية التشفير (decoupled decoding) لتقليل التداخل بين الكائنات الأمامية والخلفية، ونُقدّم تشفيرًا مشروطًا للأنماط (conditioned mask decoding) لمساعدة في إنشاء الأنماط المقابلة للمربعات المعطاة. وبهذا، نطوّر نموذجًا بسيطًا من نوع المشغّل-المُفكّك (encoder-decoder) يدمج جميع التقنيات الثلاث، وندرّبه بشكل مشترك على مجموعتي بيانات COCO وObjects365. وبعد التدريب المسبق، يُظهر نموذجنا قدرة تنافسية أو أقوى على النقل الصفرية (zero-shot transferability) في كلا المهمتين. وبشكل خاص، يتفوّق OpenSeeD على أفضل الطرق الحالية في التصنيف المفتوح للInstances والبيانيات (panoptic segmentation) عبر 5 مجموعات بيانات، ويتفوّق على الطرق السابقة في الكشف المفتوح على LVIS وODinW ضمن نفس الإعدادات. عند نقل النموذج إلى مهام محددة، يحقّق أداءً جديدًا في أفضل الأداء (SoTA) في التصنيف البياني على COCO وADE20K، وفي التصنيف الفردي على ADE20K وCityscapes.في النهاية، نشير إلى أن OpenSeeD هو أول نموذج يُستكشف فيه الإمكانات المحتملة للتدريب المشترك على التصنيف والكشف، ونأمل أن يُقبل كأساس قوي لتطوير نموذج واحد قادر على تنفيذ كلا المهمتين في بيئة مفتوحة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp