تحسين التمثيل البصري-النصي التشاركي للفصل المفتوح الاصطلاح

النماذج اللغوية المرئية المدربة مسبقًا، مثل CLIP، أصبحت تُستخدم بشكل متزايد لمعالجة مهمة التقطيع المفتوح الاصطلاح (OVS)، مستفيدة من فضاء تمثيلها المرئي-النصي المنسجم جيدًا. تتضمن الحلول النموذجية إما تجميد CLIP أثناء التدريب للحفاظ على قدرتها على التعامل مع الحالات الجديدة دون الحاجة إلى إعادة التدريب، أو تعديل مُشفر الرؤية في CLIP لتحقيق حساسية إدراكية للمناطق المحلية. ومع ذلك، فإن القليل منها يدمج تحسين التعاون بين الرؤية والنص. بناءً على هذا، نقترح آلية النقل المعتمدة على المحتوى لتعزيز كل تمثيل نصي بشكل تكيفي من خلال التفاعل مع الصورة الإدخال، مما يوفر طريقة كفاءة في عدد المعلمات لتحسين التمثيل النصي. بالإضافة إلى ذلك، نقدم استراتيجية تعويض التمثيل، والتي تقوم بمراجعة التمثيل الأصلي CLIP-V كتعويض للحفاظ على قدرة CLIP على التعامل مع الحالات الجديدة دون الحاجة إلى إعادة التدريب. بهذه الطريقة، يتم تحسين تمثيلي الرؤية والنص في CLIP بشكل مشترك، مما يعزز تناسق فضاء الخصائص المرئية-النصية. حسب علمنا، نحن أول من أنشأ آلية تحسين التعاون بين الرؤية والنص في مجال OVS. تُظهر التجارب الواسعة أن طرقنا تحقق أداءً أفضل بكثير على مقاييس OVS الشائعة. في التقطيع الدلالي للمفردات المفتوحة، تتفوق طرقنا على الأساليب السابقة الأكثر حداثة بمقدار +0.5 و+2.3 و+3.4 و+0.4 و+1.1 mIoU على مجموعات البيانات A-847 وA-150 وPC-459 وPC-59 وPAS-20 على التوالي. علاوةً على ذلك، في الإعداد البانورامي لمجموعة بيانات ADE20K، نحقق أداءً بقيمة 27.1 PQ و73.5 SQ و32.9 RQ. سيتم توفير الكود في https://github.com/jiaosiyu1999/MAFT-Plus.git .