HyperAIHyperAI

Command Palette

Search for a command to run...

VisualSparta: نهج بسيط بشكل محرج للبحث على نطاق واسع عن الصور من النص باستخدام كيس الكلمات الموزون

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee

الملخص

استرجاع الصور من النص هو مهمة أساسية في استرجاع المعلومات عبر الأنظمة الحسية، أي استرجاع الصور ذات الصلة من قاعدة بيانات كبيرة وغير مصنفة بناءً على استعلامات نصية. في هذا البحث، نقترح نموذج VisualSparta، وهو نموذج جديد (تطابق النص المرئي والنص النادر باستخدام محول سبارتا) يظهر تحسينات كبيرة فيما يتعلق بالدقة والكفاءة. يمكن لـ VisualSparta أن يتفوق على الأساليب القابلة للتوسع السابقة التي كانت تعتبر الأفضل في مجموعات بيانات MSCOCO وFlickr30K. كما نوضح أنه يحقق مزايا كبيرة في سرعة الاسترجاع، أي أن لفهرس صور يحتوي على مليون صورة، فإن استخدام VisualSparta مع وحدة المعالجة المركزية (CPU) يوفر زيادة في السرعة تبلغ حوالي 391 مرة مقارنة ببحث المتجهات باستخدام وحدة المعالجة المركزية، وحوالي 5.4 مرة مقارنة ببحث المتجهات مع تسريع وحدة معالجة الرسومات (GPU). تظهر التجارب أن هذه الميزة في السرعة تزداد حتى بالنسبة لمجموعات البيانات الأكبر حجمًا لأن VisualSparta يمكن تنفيذه بكفاءة كفهرس معكوس. حسب علمنا، يعتبر VisualSparta أول نموذج يستخدم المحولات (transformer) لاسترجاع الصور من النص يمكنه تحقيق البحث الفوري لمجموعات البيانات الكبيرة، مع تحسين كبير في الدقة مقارنة بالأساليب السابقة التي كانت تعتبر الأفضل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VisualSparta: نهج بسيط بشكل محرج للبحث على نطاق واسع عن الصور من النص باستخدام كيس الكلمات الموزون | مستندات | HyperAI