الحث البصري عبر تكميل الصور

كيف يمكن تكييف نموذج بصرى مُدرب مسبقًا على مهام جديدة لاحقة دون ضبط دقيق خاص بالمهام أو أي تعديل في النموذج؟ مستوحى من التحفيز في معالجة اللغة الطبيعية (NLP)، يبحث هذا البحث في التحفيز البصري: بالنظر إلى مثال(ات) صورة إدخال-إخراج جديد(ة) لمهمة جديدة أثناء الاختبار وصورة إدخال جديدة، الهدف هو إنتاج الصورة الإخراجية تلقائيًا بشكل متوافق مع الأمثلة المعطاة. نوضح أن طرح هذه المشكلة كعملية بسيطة لإكمال الصور (inpainting) - حرفياً مجرد ملء ثقب في صورة تحفيز بصري متصلة - يثبت أنه فعال بشكل مفاجئ، شرط أن يكون خوارزمية الإكمال قد تم تدريبها على البيانات الصحيحة. قمنا بتدريب المُشفِّرات التلقائية المقنَّعة (masked auto-encoders) على مجموعة بيانات جديدة جمعناها - 88 ألف شكل غير مشروح من مصادر أوراق بحثية على موقع Arxiv. نطبق التحفيز البصري على هذه النماذج المُدربة مسبقًا ونعرض النتائج في مجموعة متنوعة من المهام اللاحقة التي تتضمن تحويل الصور إلى صور أخرى، مثل تقسيم الجزء الأمامي، اكتشاف كائن واحد، تلوين الصور، اكتشاف الحواف وغيرها.