HyperAIHyperAI
منذ 17 أيام

ستير: التحويلة المتماثلة لمعالجة إعادة استرجاع الصور

Aleksei Shabanov, Aleksei Tarasov, Sergey Nikolenko
ستير: التحويلة المتماثلة لمعالجة إعادة استرجاع الصور
الملخص

تُعتمد الطرق الحالية لتعلم المقاييس في استرجاع الصور عادةً على تعلُّم فضاء تمثيلات خفية مفيدة، حيث تعمل الطرق البسيطة مثل المسافة الجيبية (cosine distance) بشكل جيد. أما الطرق الحديثة الأفضل في المجال، مثل HypViT، فتتجه نحو فضاءات تمثيلية أكثر تعقيدًا قد تُعطي نتائج أفضل، لكنها أصعب في التوسع والتطبيق في البيئات الإنتاجية. في هذه الدراسة، نُنشئ أولًا نموذجًا أبسط مبنيًا على خسارة الثلاثية (triplet loss) مع استخراج العينات الصعبة (hard negatives mining)، والذي يحقق أداءً على مستوى الحد الأقصى للحالة الحالية دون أن يحمل هذه العيوب. ثانيًا، نُقدِّم منهجية جديدة لمعالجة ما بعد استرجاع الصور تُسمى "Transformer التوأمي لاسترجاع الصور" (Siamese Transformer for Image Retrieval - STIR)، والتي تُعيد ترتيب عدة نتائج علوية في عملية واحدة للإدخال (forward pass). على عكس النماذج السابقة لتحسين الترتيب (Reranking Transformers)، لا تعتمد STIR على استخراج السمات العالمية أو المحلية، بل تقارن مباشرة بين صورة الاستعلام وصورة مراد استرجاعها على مستوى البكسل، باستخدام آلية الانتباه (attention mechanism). ويُعرّف هذا النهج حالة جديدة من التميز على مجموعات بيانات استرجاع الصور القياسية: Stanford Online Products وDeepFashion In-shop. كما نُطلق الكود المصدري على الرابط التالي: https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/، ونقدّم أيضًا عرضًا تفاعليًا لنظامنا عبر الرابط: https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/

ستير: التحويلة المتماثلة لمعالجة إعادة استرجاع الصور | أحدث الأوراق البحثية | HyperAI