HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP-ReID: استغلال نموذج الرؤية واللغة لإعادة تعريف الصور دون تسميات نصية محددة

Siyuan Li Li Sun* Qingli Li

الملخص

النماذج اللغوية المرئية المدربة مسبقًا مثل CLIP أظهرت مؤخرًا أداءً متفوقًا في مجموعة متنوعة من المهام اللاحقة، بما في ذلك تصنيف الصور والتقسيم. ومع ذلك، في مجال إعادة تعريف الصور الدقيق (ReID)، تكون العلامات عبارة عن مؤشرات ولا تحتوي على وصفات نصية ملموسة. ولذلك، لا يزال من غير واضح كيف يمكن تطبيق هذه النماذج على هذه المهام. يبدأ هذا البحث بتحديد أن مجرد ضبط النموذج البصري الذي تم تهييجه بواسطة محودث الصور في CLIP قد حقق بالفعل أداءً تنافسيًا في مجموعة متنوعة من مهام ReID. ثم نقترح استراتيجية ذات مرحلتين لتسهيل تمثيل بصري أفضل. الفكرة الأساسية هي الاستفادة الكاملة من قدرة الوصف بين الأصناف في CLIP من خلال مجموعة من الرموز النصية القابلة للتعلم لكل هوية (ID) وإعطائها إلى محودث النص لتكوين وصفات غامضة. في المرحلة الأولى من التدريب، تبقى محودث الصور والنماذج النصية من CLIP ثابتة، ويتم فقط تحسين الرموز النصية الخاصة بهوية الشخص أو السيارة من البداية باستخدام الخسارة التباينية التي يتم حسابها داخل دفعة واحدة. في المرحلة الثانية، تصبح الرموز النصية الخاصة بالهوية ومحددها ثابتة، مما يوفر قيودًا لضبط محودث الصور بشكل دقيق. بمساعدة الخسارة المصممة للمهمة اللاحقة، يكون محودث الصور قادرًا على تمثيل البيانات كمتجهات في الزراعة المميزة بدقة. تم التحقق من فعالية الاستراتيجية المقترحة على عدة قواعد بيانات لمهمات إعادة تعريف الهوية الشخصية أو السيارات (ReID). يمكن الوصول إلى الكود عبر الرابط: https://github.com/Syliz517/CLIP-ReID.请注意,为了更好地符合阿拉伯语的表达习惯,我在翻译中对一些句子的结构进行了调整。同时,对于一些不常见的术语,如“文本令牌”(text tokens)和“特征嵌入”(feature embedding),我保留了原文的标注以确保信息的完整性。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CLIP-ReID: استغلال نموذج الرؤية واللغة لإعادة تعريف الصور دون تسميات نصية محددة | مستندات | HyperAI