يونيكوم: تمثيل شامل ومدمج للتعلم لاسترجاع الصور

تستند طرق استرجاع الصور الحديثة عادةً إلى ضبط التعلم الدقيق للمشفرات المدربة مسبقًا لاستخراج وصفيات على مستوى الصورة. ومع ذلك، فإن النماذج الأكثر استخدامًا مدربة مسبقًا على ImageNet-1K مع فئات محدودة. ولذلك,则预先训练的特征表示不足以普遍适用于多样化的开放世界类别。在这篇论文中,我们首先根据CLIP模型提取的联合文本和视觉特征,将大规模的LAION400M聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集不可避免地包含严重的类别间冲突。为了解决这种冲突,我们随机选择部分类别间的原型来构建基于边距的softmax损失函数。为了进一步增强低维特征表示,我们在计算嵌入与类别原型之间的相似性时随机选择部分特征维度。双重随机部分选择涉及原型矩阵的类别维度和特征维度,从而使分类更具鲁棒性且特征嵌入更加紧凑。我们的方法在多个基准测试中显著优于最先进的无监督和有监督图像检索方法。代码和预训练模型已发布以促进未来的研究 https://github.com/deepglint/unicom.修正后的翻译如下:تستند طرق استرجاع الصور الحديثة عادةً إلى ضبط التعلم الدقيق للمشفرات المدربة مسبقًا لاستخراج وصفيات على مستوى الصورة. ومع ذلك، فإن النماذج الأكثر استخدامًا مدربة مسبقًا على ImageNet-1K مع فئات محدودة. ولذلك، فإن تمثيل الخصائص المدرب عليها مسبقًا ليس كافيًا للعمومية الجيدة في الفئات المتنوعة للعالم المفتوح. في هذا البحث، نقوم أولاً بتصنيف مجموعة البيانات الكبيرة LAION400M إلى مليون فئة وهمية بناءً على الخصائص النصية والبصرية المشتركة المستخرجة من خلال نموذج CLIP. بسبب الالتباس في دقة التسميات، تحتوي مجموعة البيانات التي تم تصنيفها تلقائيًا حتماً على صراعات كبيرة بين الفئات. لتخفيف هذا الصراع، نختار بشكل عشوائي بعض النماذج بين الفئات لبناء دالة الخسارة softmax القائمة على الهامش (margin-based). لتعزيز التمثيل الخطي ذو الأبعاد المنخفضة بشكل أكبر، نختار بشكل عشوائي بعض الأبعاد الخاصة بالخصائص عند حساب التشابه بين التضمينات (embeddings) والنماذج الفئوية (class-wise prototypes). تتعلق الاختيارات الجزئية العشوائية الثنائية بالأبعاد الفئوية وأبعاد الخصائص لمصفوفة النموذج، مما يجعل تصنيف البيانات مقاومًا للصراع وأكثر كثافة في التضمين الخاص به. يتفوق أسلوبنا بشكل كبير على أفضل الأساليب غير المراقبة والمراقبة لاسترجاع الصور في العديد من المقاييس القياسية. تم إصدار الرمز والنماذج المدربة مسبقًا لتسهيل البحث المستقبلي: https://github.com/deepglint/unicom.