الصور تتحدث بالصور: رسام عام للتعلم البصري السياقي

التعلم السياقي، كنموذج جديد في معالجة اللغة الطبيعية (NLP)، يسمح للنموذج بالتكيف السريع مع مهام مختلفة باستخدام عدد قليل من التحفيزات والأمثلة. ولكن في رؤية الحاسوب، تكمن الصعوبات في التعلم السياقي في أن المهام تختلف بشكل كبير في تمثيلاتها النهائية، مما يجعل من غير واضح كيفية تعريف التحفيزات العامة للمهام التي يمكن للنموذج البصري فهمها ونقلها إلى مهام خارج المجال. في هذا العمل، نقدم "Painter"، وهو نموذج عام يواجه هذه العقبات بحل متمركز حول "الصورة"، أي إعادة تعريف مخرجات المهام الأساسية البصرية كصور، وتحديد تحفيزات المهام أيضًا كصور. بفضل هذه الفكرة، يكون عملية التدريب لدينا بسيطة للغاية، حيث يتم تنفيذ نمذجة الصور المحجوبة بشكل قياسي على تجميع أزواج الصور الإدخالية والإخراجية. وهذا يجعل النموذج قادرًا على أداء المهام المشروطة بشرائح الصور المرئية. وبالتالي، أثناء الاستدلال، يمكننا اعتماد زوج من الصور الإدخالية والإخراجية من نفس المهمة كشرط إدخالي لتحديد المهمة التي يجب أداها. بدون أي تعقيدات إضافية، يمكن لنموذجنا العام "Painter" تحقيق أداء تنافسي مقارنة بالنماذج الخاصة بالمهمة المعترف بها جيدًا، في سبع مهام بصرية تمثلية تتراوح بين الفهم البصري العالي المستوى ومعالجة الصور المنخفضة المستوى. بالإضافة إلى ذلك، يتفوق "Painter" بشكل كبير على النماذج العامة الحديثة في عدة مهام صعبة.