إعادة التفكير في المُفكِّكات لتصنيف الدلالة القائم على المحولات: من منظور الضغط

تتبع الطرق المتطورة للفصل الدلالي القائم على المُحَوِّل (Transformer) عادةً مُفكِّكَات (decoders) مبنية على المُحَوِّل، والتي تُستخدم لاستخراج تضمينات إضافية من التضمينات الصورية من خلال الانتباه المتقاطع (cross-attention)، وتحسين إما نوع واحد أو كلا النوعين من التضمينات من خلال الانتباه الذاتي (self-attention)، ثم تProjection التضمينات الصورية إلى التضمينات الإضافية عبر عملية الضرب النقطي. وعلى الرغم من نجاحها البارز، فإن هذه التصاميم التجريبية لا تزال تفتقر إلى تبريرات نظرية أو تفسيرات، مما يعيق تحسينات محتملة قائمة على أسس منهجية. في هذا البحث، نُقدّم رأيًا بأن هناك ارتباطات جوهرية بين الفصل الدلالي وضغط البيانات، وبخاصة بين مُفكِّكات المُحَوِّل وتحليل المكونات الرئيسية (PCA). ومن منظورٍ كهذا، نُشَكِّل مُفكِّكًا أبيض (white-box)، بالكامل مبني على الانتباه، يُسمَّى DEPICT (DEcoder for PrIncipled semantiC segemenTation)، مع التفسيرات التالية: 1) يُحسِّن عامل الانتباه الذاتي التضمينات الصورية لبناء فضاء رئيسي مثالي يتماشى مع الإشراف ويُبقي على معظم المعلومات؛ 2) يسعى عامل الانتباه المتقاطع إلى إيجاد تقريب من الدرجة المنخفضة (low-rank approximation) للضَّمَنات الصورية المُحسَّنة، والذي يُتوقع أن يكون مجموعة من المتجهات المتعامدة (orthonormal bases) للفضاء الرئيسي، ويت corresponder إلى الفئات المحددة مسبقًا؛ 3) تُنتج عملية الضرب النقطي تمثيلًا مكثفًا للتضمينات الصورية كأقنعة للفصل الدلالي. أظهرت التجارب التي أُجريت على مجموعة بيانات ADE20K أن DEPICT يتفوّق بشكل متسق على نموذجه الأسود (black-box) Segmenter، كما أنه خفيف الوزن وأكثر مقاومةً للعوامل المُضِلّة.