إطلاق النماذج التوليدية للصورة من النص لتحسين الإدراك البصري

أصبحت نماذج التشتت (DMs) الاتجاه الجديد في النماذج التوليدية، وأظهرت قدرة قوية على التوليد الشرطي. من بين هذه النماذج، تتميز نماذج التوليد من النص إلى الصورة التي تم تدريبها مسبقًا على أزواج كبيرة من الصور والنصوص بتحكم عالٍ من خلال أوامر مخصصة. على عكس النماذج التوليدية غير الشرطية التي تركز على السمات والتفاصيل من الدرجة الدنيا، تحتوي نماذج التوليد من النص إلى الصورة على معرفة أكثر من الدرجة العليا بفضل التدريب المسبق على رؤية ولغة. في هذا البحث، نقترح إطارًا جديدًا يُسمى VPD (الإدراك البصري باستخدام نموذج تشتت مُدرَّب مسبقًا)، يُستغل فيه المعلومات الدلالية لنموذج توليد من النص إلى الصورة المُدرَّب مسبقًا في مهام الإدراك البصري. بدلًا من استخدام مشغل التخلص من الضوضاء المُدرَّب مسبقًا في النموذج القائم على التشتت، نستخدمه ببساطة كهيكل أساسي، ونهدف إلى دراسة كيفية الاستفادة القصوى من المعرفة المكتسبة. بشكل محدد، نُشغِّل مشغل التفكيك التخلّص من الضوضاء بدخل نصي مناسب، ونُحسّن ميزات النص باستخدام مُعدِّل (adapter)، مما يؤدي إلى تحسين التوافق مع المرحلة المُدرَّبة مسبقًا، ويجعل المحتوى البصري يتفاعل مع أوامر النص. كما نقترح استخدام خرائط الانتباه المتقاطعة بين الميزات البصرية وميزات النص لتقديم توجيه صريح. مقارنةً بالطرق الأخرى للتدريب المسبق، نُظهر أن نماذج التشتت المُدرَّبة مسبقًا على رؤية ولغة يمكنها التكيف بشكل أسرع مع المهام البصرية التالية باستخدام الإطار المُقترح VPD. أظهرت التجارب الواسعة في تقسيم الدلالة، والتقسيم المرجعي للصورة، وتقدير العمق فعالية طريقة لدينا. وبشكل ملحوظ، حقق VPD معدل خطأ جذري مربع (RMSE) قدره 0.254 في مهمة تقدير العمق على مجموعة بيانات NYUv2، ونسبة 73.3% من oIoU في تقسيم الصورة المرجعي على مجموعة RefCOCO-val، مُحدِّدًا أرقامًا قياسية جديدة على هاتين المجموعتين. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/wl-zhao/VPD