تعلم توليد قناع مرتبط بالنص للتقسيم الدلالي في العالم المفتوح من صور ونصوص فقط

نقوم بمعالجة التجزئة الدلالية للعالم المفتوح، والتي تهدف إلى تعلم تقسيم المفاهيم البصرية العشوائية في الصور باستخدام أزواج الصورة-النص فقط دون الحاجة إلى شروحات كثيفة. قد أظهرت الطرق الحالية للتجزئة في العالم المفتوح تقدمًا ملحوظًا من خلال استخدام التعلم التبايني (CL) لتعلم مفاهيم بصرية متنوعة ونقل الفهم المستمد من مستوى الصورة إلى مهمة التجزئة. ومع ذلك، تعاني هذه الطرق القائمة على CL من اختلاف بين مرحلة التدريب والاختبار، حيث أنها تركز فقط على تناسق الصورة-النص أثناء التدريب، بينما تتطلب التجزئة تناسق المنطقة-النص أثناء الاختبار. في هذا البحث، اقترحنا إطارًا جديدًا للتعلم التبايني المستند إلى النص (TCL) يمكّن النموذج من تعلم تناسق المنطقة-النص بشكل مباشر. طريقتنا تولد قناع تجزئة لنص معطى، تستخرج تمثيل صورة مستند إلى النص من المنطقة المقنعة، وتتناسقه مع تمثيل النص عبر TCL. عن طريق تعلم تناسق المنطقة-النص مباشرة، يشجع إطارنا النموذج على تحسين جودة الأقنعة المنتجة للتجزئة بشكل مباشر. بالإضافة إلى ذلك، لأجل مقارنة دقيقة وعادلة، نقدم بروتوكول تقييم موحد مع ثماني مجموعات بيانات شائعة لتجزئة الصور الدلالية. يحقق TCL أفضل الأداءات في التجزئة بدون إشراف (zero-shot) بأرقام كبيرة في جميع مجموعات البيانات. يمكن الحصول على الكود من https://github.com/kakaobrain/tcl.