HyperAIHyperAI
منذ 2 أشهر

CLIP-ReID: استغلال نموذج الرؤية واللغة لإعادة تعريف الصور دون تسميات نصية محددة

Siyuan Li; Li Sun; Qingli Li
CLIP-ReID: استغلال نموذج الرؤية واللغة لإعادة تعريف الصور دون تسميات نصية محددة
الملخص

النماذج اللغوية المرئية المدربة مسبقًا مثل CLIP أظهرت مؤخرًا أداءً متفوقًا في مجموعة متنوعة من المهام اللاحقة، بما في ذلك تصنيف الصور والتقسيم. ومع ذلك، في مجال إعادة تعريف الصور الدقيق (ReID)، تكون العلامات عبارة عن مؤشرات ولا تحتوي على وصفات نصية ملموسة. ولذلك، لا يزال من غير واضح كيف يمكن تطبيق هذه النماذج على هذه المهام. يبدأ هذا البحث بتحديد أن مجرد ضبط النموذج البصري الذي تم تهييجه بواسطة محودث الصور في CLIP قد حقق بالفعل أداءً تنافسيًا في مجموعة متنوعة من مهام ReID. ثم نقترح استراتيجية ذات مرحلتين لتسهيل تمثيل بصري أفضل. الفكرة الأساسية هي الاستفادة الكاملة من قدرة الوصف بين الأصناف في CLIP من خلال مجموعة من الرموز النصية القابلة للتعلم لكل هوية (ID) وإعطائها إلى محودث النص لتكوين وصفات غامضة. في المرحلة الأولى من التدريب، تبقى محودث الصور والنماذج النصية من CLIP ثابتة، ويتم فقط تحسين الرموز النصية الخاصة بهوية الشخص أو السيارة من البداية باستخدام الخسارة التباينية التي يتم حسابها داخل دفعة واحدة. في المرحلة الثانية، تصبح الرموز النصية الخاصة بالهوية ومحددها ثابتة، مما يوفر قيودًا لضبط محودث الصور بشكل دقيق. بمساعدة الخسارة المصممة للمهمة اللاحقة، يكون محودث الصور قادرًا على تمثيل البيانات كمتجهات في الزراعة المميزة بدقة. تم التحقق من فعالية الاستراتيجية المقترحة على عدة قواعد بيانات لمهمات إعادة تعريف الهوية الشخصية أو السيارات (ReID). يمكن الوصول إلى الكود عبر الرابط: https://github.com/Syliz517/CLIP-ReID.请注意,为了更好地符合阿拉伯语的表达习惯,我在翻译中对一些句子的结构进行了调整。同时,对于一些不常见的术语,如“文本令牌”(text tokens)和“特征嵌入”(feature embedding),我保留了原文的标注以确保信息的完整性。