HyperAIHyperAI
منذ 2 أشهر

تصنيف الصور بدون قيود ومفردات مفتوحة: نقل الصفر من النص إلى الصورة عبر عكس CLIP

Philipp Allgeuer; Kyra Ahrens; Stefan Wermter
تصنيف الصور بدون قيود ومفردات مفتوحة: نقل الصفر من النص إلى الصورة عبر عكس CLIP
الملخص

نقدم NOVIC، وهو تصنيف صور في الوقت الفعلي غير مقيّد بالكلمات المفتوحة والمبتكر، الذي يستخدم محولًا ذاتي التنظيم لإنتاج تسميات التصنيف كلغة. من خلال الاستفادة من المعرفة الواسعة لنموذج CLIP، يتمكن NOVIC من استخدام فضاء التضمين لتمكين النقل بدون تصوير من النص الخالص إلى الصور. رغم قدرة نماذج CLIP التقليدية على تصنيف الكلمات المفتوحة، فإنها تتطلب دعوة شاملة لمجموعة ممكنة من تسميات الفئات، مما يحد من تطبيقاتها على صور ذات محتوى أو سياق معروف. للتعامل مع هذا الأمر، نقترح نموذج "مفكك الأشياء" (object decoder) الذي يتم تدريبه على مجموعة بيانات واسعة تحتوي على 92 مليون هدف من مجموعات الأسماء الخاصة بالأشياء القوالبية والتعليقات التي تم إنشاؤها بواسطة النماذج اللغوية الكبيرة (LLM) لإنتاج اسم الشيء المعني دائمًا. هذا يقلب محول النص في CLIP بشكل فعال ويتيح إنتاج تسميات الأشياء النصية تقريبًا من اللغة الإنجليزية بأكملها مباشرةً من متجهات التضمين المستخرجة من الصور، دون الحاجة إلى أي معرفة سابقة بمحتوى الصورة المحتمل، وبلا أي انحيازات في التسميات. يتم اختبار المفككات المدربة على خليط من مجموعات البيانات التي تم جمعها يدويًا ومن الإنترنت وكذلك مقاييس تصنيف الصور القياسية، وتحقيق درجات تنبؤ دقيقة بدون دعوات تصل إلى 87.5٪، وهي نتيجة قوية بعين الاعتبار أن النموذج يجب أن يعمل لأي صورة يمكن تخيلها وبلا أي أدلة سياقية.

تصنيف الصور بدون قيود ومفردات مفتوحة: نقل الصفر من النص إلى الصورة عبر عكس CLIP | أحدث الأوراق البحثية | HyperAI