HyperAIHyperAI
منذ 2 أشهر

Grounding DINO: دمج DINO مع التدريب المُرَكّز مسبقًا لاكتشاف الأشياء في المجموعات المفتوحة

Shilong Liu; Zhaoyang Zeng; Tianhe Ren; Feng Li; Hao Zhang; Jie Yang; Qing Jiang; Chunyuan Li; Jianwei Yang; Hang Su; Jun Zhu; Lei Zhang
Grounding DINO: دمج DINO مع التدريب المُرَكّز مسبقًا لاكتشاف الأشياء في المجموعات المفتوحة
الملخص

في هذا البحث، نقدم نظامًا لكشف الأشياء في البيئة المفتوحة يُسمى Grounding DINO، من خلال دمج كاشف DINO القائم على الترانسفورمر مع التدريب المسبق المتأصل، مما يمكنه من كشف أي أشياء بناءً على مدخلات بشرية مثل أسماء الفئات أو التعبيرات الإشارة. الحل الرئيسي للكشف عن الأشياء في البيئة المفتوحة هو إدخال اللغة إلى الكاشف في البيئة المغلقة لتحقيق تعميم مفاهيم البيئة المفتوحة. لدمج فعّال بين الوسائط اللغوية والبصرية، نقسم مفاهيميًا الكاشف في البيئة المغلقة إلى ثلاث مراحل ونقترح حل دمج محكم، والذي يشمل تعزيز الخصائص، اختيار الاستعلامات بمساعدة اللغة، ومحقق الترميز عبر الوسائط للدمج عبر الوسائط. بينما تركز الدراسات السابقة بشكل أساسي على تقييم الكشف عن الأشياء في البيئة المفتوحة على فئات جديدة، نقترح أيضًا إجراء تقييمات على فهم التعبيرات الإشارة للأشياء التي يتم تحديدها بواسطة السمات. يؤدي Grounding DINO بشكل ملحوظ جيد في جميع الثلاثة إعدادات، بما في ذلك مقاييس الأداء على COCO و LVIS و ODinW و RefCOCO/+/g. يحقق Grounding DINO دقة كشف (AP) قدرها 52.5٪ على مقاييس الأداء لنقل الصفر (zero-shot transfer) لكشف COCO، أي بدون أي بيانات تدريب من COCO. كما أنه يسجل رقماً قياسياً جديداً على مقاييس الأداء لنقل الصفر (zero-shot) لـ ODinW بمعدل دقة كشف (AP) متوسط قدره 26.1٪. سيتم توفير الشيفرة البرمجية في \url{https://github.com/IDEA-Research/GroundingDINO}.

Grounding DINO: دمج DINO مع التدريب المُرَكّز مسبقًا لاكتشاف الأشياء في المجموعات المفتوحة | أحدث الأوراق البحثية | HyperAI