من النص إلى القناع: تحديد مواقع الكيانات باستخدام الانتباه في نماذج التمايز النصية إلى الصور

أثارت نماذج الانتشار (Diffusion models) ثورة في مجال توليد الصور من النصوص مؤخرًا. يُعزى إلى الطريقة الفريدة لدمج المعلومات النصية والصورية سبب قدرتها المتميزة على إنتاج صور مرتبطة بشكل دقيق بالنصوص. من منظور آخر، تشير هذه النماذج التوليدية إلى مؤشرات حول العلاقة الدقيقة بين الكلمات والبكسلات. في هذا العمل، تم اقتراح طريقة بسيطة ولكنها فعّالة لاستخدام آلية الانتباه (attention mechanism) في شبكة إزالة الضوضاء الخاصة بنماذج الانتشار لتوليد الصور من النصوص. وبلا حاجة إلى إعادة تدريب أو تحسين أثناء الاستدلال، يمكن تحقيق التأصيل الدلالي (semantic grounding) للعبارات مباشرة. تم تقييم طريقة العمل لدينا على مجموعتي بيانات Pascal VOC 2012 وMicrosoft COCO 2014 ضمن بيئة التصنيف الدلالي الضعيف التدريب (weakly-supervised semantic segmentation)، حيث حققت أداءً متفوقًا مقارنة بالأساليب السابقة. بالإضافة إلى ذلك، تبين أن العلاقة بين الكلمات والبكسلات التي تم اكتسابها قابلة للتعميم على تضمينات النصوص المُدرَّسة في أساليب توليد مخصصة، ما يتطلب فقط تعديلات قليلة. لتأكيد هذا الاكتشاف، قمنا بتمثيل مهمة عملية جديدة تُسمى "التصنيف المرجعي للصورة المخصصة" (personalized referring image segmentation) باستخدام مجموعة بيانات جديدة. أظهرت التجارب في ظروف مختلفة المزايا التنافسية لطريقتنا مقارنة بالأساليب القوية الحالية في هذه المهمة. باختصار، يُظهر هذا العمل طريقة جديدة لاستخراج المعرفة متعددة الوسائط الغنية المختبئة داخل نماذج الانتشار لصالح مهام التصنيف.