{Andrew Zisserman Relja Arandjelović}
الملخص
الهدف من هذا العمل هو استرجاع الكائنات في مجموعات بيانات صور كبيرة الحجم، حيث يتم تحديد الكائن من خلال استعلام بصري، ويجب أن يكون الاسترجاع فوريًا أثناء التشغيل، بالأسلوب المستخدم في "فيديو جوجل" [28]. نقدم ثلاث مساهمات رئيسية: (أ) طريقة جديدة لمقارنة واصفات SIFT (تُعرف بـ RootSIFT) تُحقق أداءً متفوقًا دون زيادة في متطلبات المعالجة أو التخزين؛ (ب) طريقة مبتكرة لتوسيع الاستعلام، حيث يتم تعلّم نموذج أكثر ثراءً للاستعلام بشكل تمييزي، بصيغة مناسبة للاسترجاع الفوري من خلال الاستفادة الفعالة من الفهرس العكسي؛ (ج) تحسين لطريقة تكبير الصور المُقترحة بواسطة توروك و لوف (Turcot and Lowe) [29]، حيث يتم الاحتفاظ فقط بالخصائص المضافة التي تكون متسقة مكانيًا مع الصورة المُضافة. قمنا بتقييم هذه الطرق الثلاثة على عدد من مجموعات البيانات القياسية (Oxford Buildings 5k و 105k، وParis 6k)، وأظهرنا تحسنًا كبيرًا في أداء الاسترجاع مع الحفاظ على سرعة الاسترجاع الفوري. وعند دمج هذه الطرق المكملة، تم تحقيق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) على هذه المجموعات.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| image-matching-on-imc-phototourism | RootSIFT | mean average accuracy @ 10: 0.59859 |
| image-matching-on-zeb | RootSIFT | Mean AUC@5°: 31.8 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.