HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز الدلالي المفتوح مع توازن تمثيل الصور

Xiangheng Shan Dongyue Wu Guilin Zhu Yuanjie Shao* Nong Sang Changxin Gao

الملخص

التمييز الدلالي المفتوح هو مهمة صعبة تتطلب من النموذج إنتاج أقنعة دلالية للصورة تتجاوز مفردات مجموعة مغلقة. رغم الجهود الكثيرة التي بُذلت لاستخدام نماذج CLIP القوية لإتمام هذه المهمة، إلا أنها لا تزال عرضة للانحراف الزائد نحو فئات التدريب بسبب الفجوات الطبيعية في المعلومات الدلالية بين فئات التدريب والفئات الجديدة. لتجاوز هذا التحدي، نقترح إطارًا جديدًا للتمييز الدلالي المفتوح يُسمى EBSeg، يدمج فيه مفكك التشفير المتوازن بشكل تكيفي (AdaB Decoder) وخسارة ثبات البنية الدلالية (SSC Loss). تم تصميم AdaB Decoder لتوليد تضمينات صورية مختلفة لكل من فئات التدريب والفئات الجديدة. بعد ذلك، يتم موازنة هذين النوعين من التضمينات بشكل تكيفي للاستفادة الكاملة من قدرتهما على التعرف على فئات التدريب وقابلية التعميم للفئات الجديدة. لتعلم بنية دلالية متسقة من CLIP، تقوم خسارة SSC بتوفيق الارتباط بين الفئات في مجال الخصائص الصورية مع ذلك في مجال الخصائص النصية لـ CLIP، مما يحسن قابلية تعميم نموذجنا. بالإضافة إلى ذلك، نستخدم مُشفِّر الصور SAM الثابت لتكميل المعلومات المكانية التي تعاني منها خصائص CLIP بسبب انخفاض دقة صور التدريب والإشراف على مستوى الصورة الموجود في CLIP. أظهرت التجارب الواسعة التي أجريت عبر العديد من مقاييس الأداء أن EBSeg المقترح يتفوق على أفضل الأساليب الحالية. سيتم توفير كودنا والنماذج المدربة هنا: https://github.com/slonetime/EBSeg.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمييز الدلالي المفتوح مع توازن تمثيل الصور | مستندات | HyperAI