HyperAIHyperAI
منذ 2 أشهر

TTD: تحسين مواءمة النص والصورة في CLIP لتخفيف التحيز الفردي للوسم

Sanghyun Jo; Soohyun Ryu; Sungyub Kim; Eunho Yang; Kyungsu Kim
TTD: تحسين مواءمة النص والصورة في CLIP لتخفيف التحيز الفردي للوسم
الملخص

نحدد تحيزًا حاسمًا في النماذج المعتمدة على CLIP في العصر الحديث، والذي نطلق عليه تحيز الوسم الفردي. يظهر هذا التحيز كتركيز غير متناسب على وسم واحد (كلمة) مع إهمال الوسوم ذات الصلة الأخرى، وهو ناتج عن تمثيلات النص في CLIP التي تعطي أولوية لوسم محدد في علاقات الصورة-النص. عند تفكيك النص إلى وسوم فردية، يكون هناك غالبًا وسم واحد فقط له صلة عالية بتمثيل الصورة في CLIP، مما يؤدي إلى تحيز في صلة الوسوم. في هذه الورقة البحثية، نقدم منهجية جديدة لضبط الدقة المكونة من خطوتين، وهي ضبط الذات للنص والوسم (TTD)، لمعالجة هذا التحدي. تقوم TTD أولاً باستخراج الوسوم ذات الصلة بالصورة من النص بناءً على تشابهها مع البكسلات الأقرب، ثم تستعمل استراتيجية ضبط الذات لتوفيق الأقنعة المركبة مع القناع المستمد من النص. يضمن هذا الأسلوب توفيق الصورة والنص بشكل غير متحيز في النماذج المعتمدة على CLIP باستخدام أزواج الصورة-النص فقط دون الحاجة إلى إشراف إضافي. تقنية ours تظهر تحسينات مستقلة عن النموذج في مهام تصنيف وتقسيم متعدد الوسوم، وتتفوق على الأساليب المنافسة التي تعتمد على موارد خارجية. الرمز البرمجي متاح على https://github.com/shjo-april/TTD.

TTD: تحسين مواءمة النص والصورة في CLIP لتخفيف التحيز الفردي للوسم | أحدث الأوراق البحثية | HyperAI