HyperAIHyperAI
منذ 2 أشهر

VisualSparta: نهج بسيط بشكل محرج للبحث على نطاق واسع عن الصور من النص باستخدام كيس الكلمات الموزون

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee
VisualSparta: نهج بسيط بشكل محرج للبحث على نطاق واسع عن الصور من النص باستخدام كيس الكلمات الموزون
الملخص

استرجاع الصور من النص هو مهمة أساسية في استرجاع المعلومات عبر الأنظمة الحسية، أي استرجاع الصور ذات الصلة من قاعدة بيانات كبيرة وغير مصنفة بناءً على استعلامات نصية. في هذا البحث، نقترح نموذج VisualSparta، وهو نموذج جديد (تطابق النص المرئي والنص النادر باستخدام محول سبارتا) يظهر تحسينات كبيرة فيما يتعلق بالدقة والكفاءة. يمكن لـ VisualSparta أن يتفوق على الأساليب القابلة للتوسع السابقة التي كانت تعتبر الأفضل في مجموعات بيانات MSCOCO وFlickr30K. كما نوضح أنه يحقق مزايا كبيرة في سرعة الاسترجاع، أي أن لفهرس صور يحتوي على مليون صورة، فإن استخدام VisualSparta مع وحدة المعالجة المركزية (CPU) يوفر زيادة في السرعة تبلغ حوالي 391 مرة مقارنة ببحث المتجهات باستخدام وحدة المعالجة المركزية، وحوالي 5.4 مرة مقارنة ببحث المتجهات مع تسريع وحدة معالجة الرسومات (GPU). تظهر التجارب أن هذه الميزة في السرعة تزداد حتى بالنسبة لمجموعات البيانات الأكبر حجمًا لأن VisualSparta يمكن تنفيذه بكفاءة كفهرس معكوس. حسب علمنا، يعتبر VisualSparta أول نموذج يستخدم المحولات (transformer) لاسترجاع الصور من النص يمكنه تحقيق البحث الفوري لمجموعات البيانات الكبيرة، مع تحسين كبير في الدقة مقارنة بالأساليب السابقة التي كانت تعتبر الأفضل.

VisualSparta: نهج بسيط بشكل محرج للبحث على نطاق واسع عن الصور من النص باستخدام كيس الكلمات الموزون | أحدث الأوراق البحثية | HyperAI