HyperAIHyperAI
منذ 11 أيام

تثبيت كل شيء: الخصائص المُستمَدة للتحديد في المحولات البصرية-اللغوية

Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne
تثبيت كل شيء: الخصائص المُستمَدة للتحديد في المحولات البصرية-اللغوية
الملخص

أظهرت نماذج الأساس البصرية-اللغوية أداءً متميزًا في مجموعة متنوعة من البيئات الصفرية، مثل استرجاع الصور، والتصنيف، أو التسمية. ولكن حتى الآن، تبدو هذه النماذج متأخرة نسبيًا عند تطبيقها على مهمة التحديد الصفرية للتعبيرات المرجعية والأجسام في الصور. نتيجة لذلك، يتطلب الأمر تدريبها الدقيق (fine-tuning) لهذه المهمة. في هذه الورقة، نُظهر أن النماذج المُدرَّبة مسبقًا على الصور واللغة (VL) تسمح بتحديد كائنات مفتوحة المفردات دون تدريب، في سياق صفرية. وللاستفادة من هذه القدرات، نقترح وحدة تثبيت كل شيء (GEM)، التي تعمم مفهوم الانتباه من نوع القيمة-القيمة (value-value attention) المُقدَّم في CLIPSurgery إلى مسار انتباه ذاتي-ذاتي (self-self attention). ونُظهر أن مفهوم الانتباه الذاتي-ذاتي يتوافق مع التجميع (clustering)، مما يُجبر المجموعات من الرموز (tokens) الناتجة عن نفس الكائن على أن تكون متشابهة، مع الحفاظ على التوافق مع الفضاء اللغوي. ولتوجيه تكوين المجموعات بشكل أفضل، نُقدِّم مجموعة من التقييدات (regularizations) التي تُمكّن النموذج من التعميم الفعلي عبر المجموعات المختلفة وبنية النموذج (backbones). ونُقيّم إطار العمل المُقترح GEM على مهام ومعطيات معيارية متنوعة للتصنيف الدلالي (semantic segmentation). وتبين النتائج أن GEM لا يفوق فقط الطرق الأخرى المبنية على التدريب الحر (training-free) للتحديد المفتوح المفردات، بل يحقق أيضًا نتائج رائدة (state-of-the-art) على معيار التصنيف الكبير المُقترح حديثًا OpenImagesV7.

تثبيت كل شيء: الخصائص المُستمَدة للتحديد في المحولات البصرية-اللغوية | أحدث الأوراق البحثية | HyperAI