HyperAIHyperAI

Command Palette

Search for a command to run...

Grounding DINO: دمج DINO مع التدريب المُرَكّز مسبقًا لاكتشاف الأشياء في المجموعات المفتوحة

الملخص

في هذا البحث، نقدم نظامًا لكشف الأشياء في البيئة المفتوحة يُسمى Grounding DINO، من خلال دمج كاشف DINO القائم على الترانسفورمر مع التدريب المسبق المتأصل، مما يمكنه من كشف أي أشياء بناءً على مدخلات بشرية مثل أسماء الفئات أو التعبيرات الإشارة. الحل الرئيسي للكشف عن الأشياء في البيئة المفتوحة هو إدخال اللغة إلى الكاشف في البيئة المغلقة لتحقيق تعميم مفاهيم البيئة المفتوحة. لدمج فعّال بين الوسائط اللغوية والبصرية، نقسم مفاهيميًا الكاشف في البيئة المغلقة إلى ثلاث مراحل ونقترح حل دمج محكم، والذي يشمل تعزيز الخصائص، اختيار الاستعلامات بمساعدة اللغة، ومحقق الترميز عبر الوسائط للدمج عبر الوسائط. بينما تركز الدراسات السابقة بشكل أساسي على تقييم الكشف عن الأشياء في البيئة المفتوحة على فئات جديدة، نقترح أيضًا إجراء تقييمات على فهم التعبيرات الإشارة للأشياء التي يتم تحديدها بواسطة السمات. يؤدي Grounding DINO بشكل ملحوظ جيد في جميع الثلاثة إعدادات، بما في ذلك مقاييس الأداء على COCO و LVIS و ODinW و RefCOCO/+/g. يحقق Grounding DINO دقة كشف (AP) قدرها 52.5٪ على مقاييس الأداء لنقل الصفر (zero-shot transfer) لكشف COCO، أي بدون أي بيانات تدريب من COCO. كما أنه يسجل رقماً قياسياً جديداً على مقاييس الأداء لنقل الصفر (zero-shot) لـ ODinW بمعدل دقة كشف (AP) متوسط قدره 26.1٪. سيتم توفير الشيفرة البرمجية في \url{https://github.com/IDEA-Research/GroundingDINO}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp