HyperAIHyperAI

Command Palette

Search for a command to run...

الصور تتحدث بالصور: رسام عام للتعلم البصري السياقي

Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang

الملخص

التعلم السياقي، كنموذج جديد في معالجة اللغة الطبيعية (NLP)، يسمح للنموذج بالتكيف السريع مع مهام مختلفة باستخدام عدد قليل من التحفيزات والأمثلة. ولكن في رؤية الحاسوب، تكمن الصعوبات في التعلم السياقي في أن المهام تختلف بشكل كبير في تمثيلاتها النهائية، مما يجعل من غير واضح كيفية تعريف التحفيزات العامة للمهام التي يمكن للنموذج البصري فهمها ونقلها إلى مهام خارج المجال. في هذا العمل، نقدم "Painter"، وهو نموذج عام يواجه هذه العقبات بحل متمركز حول "الصورة"، أي إعادة تعريف مخرجات المهام الأساسية البصرية كصور، وتحديد تحفيزات المهام أيضًا كصور. بفضل هذه الفكرة، يكون عملية التدريب لدينا بسيطة للغاية، حيث يتم تنفيذ نمذجة الصور المحجوبة بشكل قياسي على تجميع أزواج الصور الإدخالية والإخراجية. وهذا يجعل النموذج قادرًا على أداء المهام المشروطة بشرائح الصور المرئية. وبالتالي، أثناء الاستدلال، يمكننا اعتماد زوج من الصور الإدخالية والإخراجية من نفس المهمة كشرط إدخالي لتحديد المهمة التي يجب أداها. بدون أي تعقيدات إضافية، يمكن لنموذجنا العام "Painter" تحقيق أداء تنافسي مقارنة بالنماذج الخاصة بالمهمة المعترف بها جيدًا، في سبع مهام بصرية تمثلية تتراوح بين الفهم البصري العالي المستوى ومعالجة الصور المنخفضة المستوى. بالإضافة إلى ذلك، يتفوق "Painter" بشكل كبير على النماذج العامة الحديثة في عدة مهام صعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp