HyperAIHyperAI

Command Palette

Search for a command to run...

النصوص كصور في ضبط الدفع للاعتراف متعدد التسميات بالصورة

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

الملخص

تم استخدام تعديل الدفع (Prompt tuning) كطريقة فعالة لتكييف النماذج المدربة مسبقًا على نطاق واسع في مجال الرؤية واللغة (مثل CLIP) لأداء مهام مختلفة لاحقة في بيئات ذات بيانات محدودة أو تسميات محدودة. ومع ذلك، فإن البيانات البصرية (مثل الصور) هي بالضرورة شرط أساسي لتعلم الدفع في الطرق الحالية. في هذا العمل، ندعو إلى أن فعالية تعلم التباين بين النص والصورة في تنسيق الوسيلتين (لتدريب CLIP) تجعل من الممكن معالجة النصوص كصور للدفع وتقديم دفع TaI. بخلاف البيانات البصرية، فإن وصفات النص سهلة جمعها ويمكن استنتاج تصنيفاتها مباشرة. بشكل خاص، نطبق دفع TaI على التعرف على الصور متعددة التسميات، حيث تخدم الجمل الموجودة في الطبيعة كبديل للصور لتعديل الدفع. بالإضافة إلى ذلك، يتم تقديم تعديل الدفع ذو الحبيبات المزدوجة (TaI-DPT) مع دفع TaI لاستخراج تمثيلات ذات حبيبات خشنة ودقيقة لتعزيز أداء التعرف على الصور متعددة التسميات. تظهر النتائج التجريبية أن طريقة TaI-DPT المقترحة لدينا تتفوق بشكل كبير على CLIP بدون تصوير في عدة مقاييس مثل MS-COCO وVOC2007 وNUS-WIDE، بينما يمكن الجمع بينها وبين الطرق الحالية لتقديم الدفع من الصور لتحسين أداء التعرف بشكل أكبر. تم نشر الكود في https://github.com/guozix/TaI-DPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
النصوص كصور في ضبط الدفع للاعتراف متعدد التسميات بالصورة | مستندات | HyperAI