HyperAIHyperAI
منذ 2 أشهر

غروندنج دينو 1.5: تطوير "الحافة" في اكتشاف الأشياء المفتوحة

Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
غروندنج دينو 1.5: تطوير "الحافة" في اكتشاف الأشياء المفتوحة
الملخص

يقدم هذا البحث مجموعة نماذج متقدمة للكشف عن الأشياء في المجموعات المفتوحة (Grounding DINO 1.5) تم تطويرها من قبل معهد البحوث IDEA، والتي تهدف إلى تطوير "الحافة" (Edge) في مجال الكشف عن الأشياء في المجموعات المفتوحة. تتضمن هذه المجموعة نموذجين: Grounding DINO 1.5 Pro، وهو نموذج عالي الأداء مصمم لتحقيق قدرة تعميم أقوى عبر مجموعة واسعة من السيناريوهات، وGrounding DINO 1.5 Edge، وهو نموذج فعال مُحسَّن لتحقيق سرعة أسرع مطلوبة في العديد من التطبيقات التي تحتاج إلى نشر الحوسبة على الحافة.يتفوق نموذج Grounding DINO 1.5 Pro على سابقه من خلال زيادة حجم بنية النموذج، دمج عمود فقري بصري مُحسَّن، وتوسيع مجموعة البيانات التدريبية لتتضمن أكثر من 20 مليون صورة مع شروحات أساسية (grounding annotations)، مما يتيح له تحقيق فهم دلالي أغنى. بينما يتم تصميم نموذج Grounding DINO 1.5 Edge للفعالية بمستويات ميزات أقل، فإنه يحافظ على قدراته القوية في الكشف عن الأشياء من خلال التدريب على نفس مجموعة البيانات الشاملة.تظهر النتائج التجريبية فعالية Grounding DINO 1.5، حيث حقق نموذج Grounding DINO 1.5 Pro درجة دقة متوسطة (AP) بلغت 54.3% في اختبار كشف COCO ودرجة AP بلغت 55.7% في اختبار LVIS-minival للنقل الصفر (zero-shot transfer)، مما يضع سجلات جديدة في مجال الكشف عن الأشياء في المجموعات المفتوحة. بالإضافة إلى ذلك، عند تحسينه باستخدام TensorRT، يصل نموذج Grounding DINO 1.5 Edge إلى سرعة بلغت 75.2 إطارًا في الثانية (FPS) مع تحقيق أداء صفر (zero-shot) بمعدل AP بلغ 36.2% في اختبار LVIS-minival، مما يجعله أكثر ملاءمة للمواقف التي تتطلب الحوسبة على الحافة.ستتم إصدار أمثلة للنماذج والعروض التوضيحية مع واجهة برمجة التطبيقات (API) على الرابط التالي:https://github.com/IDEA-Research/Grounding-DINO-1.5-API

غروندنج دينو 1.5: تطوير "الحافة" في اكتشاف الأشياء المفتوحة | أحدث الأوراق البحثية | HyperAI