HyperAIHyperAI

Command Palette

Search for a command to run...

إطلاق النماذج التوليدية للصورة من النص لتحسين الإدراك البصري

Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu

الملخص

أصبحت نماذج التشتت (DMs) الاتجاه الجديد في النماذج التوليدية، وأظهرت قدرة قوية على التوليد الشرطي. من بين هذه النماذج، تتميز نماذج التوليد من النص إلى الصورة التي تم تدريبها مسبقًا على أزواج كبيرة من الصور والنصوص بتحكم عالٍ من خلال أوامر مخصصة. على عكس النماذج التوليدية غير الشرطية التي تركز على السمات والتفاصيل من الدرجة الدنيا، تحتوي نماذج التوليد من النص إلى الصورة على معرفة أكثر من الدرجة العليا بفضل التدريب المسبق على رؤية ولغة. في هذا البحث، نقترح إطارًا جديدًا يُسمى VPD (الإدراك البصري باستخدام نموذج تشتت مُدرَّب مسبقًا)، يُستغل فيه المعلومات الدلالية لنموذج توليد من النص إلى الصورة المُدرَّب مسبقًا في مهام الإدراك البصري. بدلًا من استخدام مشغل التخلص من الضوضاء المُدرَّب مسبقًا في النموذج القائم على التشتت، نستخدمه ببساطة كهيكل أساسي، ونهدف إلى دراسة كيفية الاستفادة القصوى من المعرفة المكتسبة. بشكل محدد، نُشغِّل مشغل التفكيك التخلّص من الضوضاء بدخل نصي مناسب، ونُحسّن ميزات النص باستخدام مُعدِّل (adapter)، مما يؤدي إلى تحسين التوافق مع المرحلة المُدرَّبة مسبقًا، ويجعل المحتوى البصري يتفاعل مع أوامر النص. كما نقترح استخدام خرائط الانتباه المتقاطعة بين الميزات البصرية وميزات النص لتقديم توجيه صريح. مقارنةً بالطرق الأخرى للتدريب المسبق، نُظهر أن نماذج التشتت المُدرَّبة مسبقًا على رؤية ولغة يمكنها التكيف بشكل أسرع مع المهام البصرية التالية باستخدام الإطار المُقترح VPD. أظهرت التجارب الواسعة في تقسيم الدلالة، والتقسيم المرجعي للصورة، وتقدير العمق فعالية طريقة لدينا. وبشكل ملحوظ، حقق VPD معدل خطأ جذري مربع (RMSE) قدره 0.254 في مهمة تقدير العمق على مجموعة بيانات NYUv2، ونسبة 73.3% من oIoU في تقسيم الصورة المرجعي على مجموعة RefCOCO-val، مُحدِّدًا أرقامًا قياسية جديدة على هاتين المجموعتين. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/wl-zhao/VPD


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp