HyperAIHyperAI
منذ 2 أشهر

النصوص كصور في ضبط الدفع للاعتراف متعدد التسميات بالصورة

Guo, Zixian ; Dong, Bowen ; Ji, Zhilong ; Bai, Jinfeng ; Guo, Yiwen ; Zuo, Wangmeng
النصوص كصور في ضبط الدفع للاعتراف متعدد التسميات بالصورة
الملخص

تم استخدام تعديل الدفع (Prompt tuning) كطريقة فعالة لتكييف النماذج المدربة مسبقًا على نطاق واسع في مجال الرؤية واللغة (مثل CLIP) لأداء مهام مختلفة لاحقة في بيئات ذات بيانات محدودة أو تسميات محدودة. ومع ذلك، فإن البيانات البصرية (مثل الصور) هي بالضرورة شرط أساسي لتعلم الدفع في الطرق الحالية. في هذا العمل، ندعو إلى أن فعالية تعلم التباين بين النص والصورة في تنسيق الوسيلتين (لتدريب CLIP) تجعل من الممكن معالجة النصوص كصور للدفع وتقديم دفع TaI. بخلاف البيانات البصرية، فإن وصفات النص سهلة جمعها ويمكن استنتاج تصنيفاتها مباشرة. بشكل خاص، نطبق دفع TaI على التعرف على الصور متعددة التسميات، حيث تخدم الجمل الموجودة في الطبيعة كبديل للصور لتعديل الدفع. بالإضافة إلى ذلك، يتم تقديم تعديل الدفع ذو الحبيبات المزدوجة (TaI-DPT) مع دفع TaI لاستخراج تمثيلات ذات حبيبات خشنة ودقيقة لتعزيز أداء التعرف على الصور متعددة التسميات. تظهر النتائج التجريبية أن طريقة TaI-DPT المقترحة لدينا تتفوق بشكل كبير على CLIP بدون تصوير في عدة مقاييس مثل MS-COCO وVOC2007 وNUS-WIDE، بينما يمكن الجمع بينها وبين الطرق الحالية لتقديم الدفع من الصور لتحسين أداء التعرف بشكل أكبر. تم نشر الكود في https://github.com/guozix/TaI-DPT.

النصوص كصور في ضبط الدفع للاعتراف متعدد التسميات بالصورة | أحدث الأوراق البحثية | HyperAI