HyperAIHyperAI

Command Palette

Search for a command to run...

تثبيت كل شيء: الخصائص المُستمَدة للتحديد في المحولات البصرية-اللغوية

Walid Bousselham Felix Petersen Vittorio Ferrari Hilde Kuehne

الملخص

أظهرت نماذج الأساس البصرية-اللغوية أداءً متميزًا في مجموعة متنوعة من البيئات الصفرية، مثل استرجاع الصور، والتصنيف، أو التسمية. ولكن حتى الآن، تبدو هذه النماذج متأخرة نسبيًا عند تطبيقها على مهمة التحديد الصفرية للتعبيرات المرجعية والأجسام في الصور. نتيجة لذلك، يتطلب الأمر تدريبها الدقيق (fine-tuning) لهذه المهمة. في هذه الورقة، نُظهر أن النماذج المُدرَّبة مسبقًا على الصور واللغة (VL) تسمح بتحديد كائنات مفتوحة المفردات دون تدريب، في سياق صفرية. وللاستفادة من هذه القدرات، نقترح وحدة تثبيت كل شيء (GEM)، التي تعمم مفهوم الانتباه من نوع القيمة-القيمة (value-value attention) المُقدَّم في CLIPSurgery إلى مسار انتباه ذاتي-ذاتي (self-self attention). ونُظهر أن مفهوم الانتباه الذاتي-ذاتي يتوافق مع التجميع (clustering)، مما يُجبر المجموعات من الرموز (tokens) الناتجة عن نفس الكائن على أن تكون متشابهة، مع الحفاظ على التوافق مع الفضاء اللغوي. ولتوجيه تكوين المجموعات بشكل أفضل، نُقدِّم مجموعة من التقييدات (regularizations) التي تُمكّن النموذج من التعميم الفعلي عبر المجموعات المختلفة وبنية النموذج (backbones). ونُقيّم إطار العمل المُقترح GEM على مهام ومعطيات معيارية متنوعة للتصنيف الدلالي (semantic segmentation). وتبين النتائج أن GEM لا يفوق فقط الطرق الأخرى المبنية على التدريب الحر (training-free) للتحديد المفتوح المفردات، بل يحقق أيضًا نتائج رائدة (state-of-the-art) على معيار التصنيف الكبير المُقترح حديثًا OpenImagesV7.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp