HyperAIHyperAI

Command Palette

Search for a command to run...

EVF-SAM: الاندماج المبكر بين الرؤية واللغة لتمكين تقسيم أي شيء بناءً على النص

Yuxuan Zhang Tianheng Cheng Rui Hu ei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang

الملخص

نموذج تقسيم أي شيء (SAM) جذب الانتباه على نطاق واسع بسبب قدراته التفاعلية المتميزة في التقسيم باستخدام الرموز البصرية، مع نقص في استكشاف استخدام الرموز النصية. في هذا البحث، نقوم بدراسة تجريبية لتحديد ما إذا كانت مُشفِّرات الرموز النصية (مثل CLIP أو LLM) مناسبة لتكييف SAM للتقسيم المرجعي للتعبيرات، ونقدم نموذج EVF-SAM القائم على الاندماج المبكر بين الرؤية واللغة. يعتبر EVF-SAM طريقة تقسيم مرجعية بسيطة ومعتبرة فعالة، حيث يستخدم الرموز متعددة الوسائط (أي الصور والنصوص) ويتألف من نموذج رؤية-لغة مُدرب مسبقًا لإنشاء الرموز المرجعية ونموذج SAM للتقسيم. بشكل مفاجئ، لاحظنا أن: (1) الرموز متعددة الوسائط و(2) نماذج الرؤية-اللغة ذات الاندماج المبكر (مثل BEIT-3) تكون مفيدة لتحفيز SAM لتحقيق تقسيم دقيق للتعبيرات المرجعية. أظهرت تجاربنا أن النموذج المقترح EVF-SAM القائم على BEIT-3 يمكنه تحقيق أداء يتفوق على أفضل الأداء السابق في مجموعات بيانات RefCOCO/+/g للتقسيم المرجعي للتعبيرات، مما يثبت تفوق استخدام تحفيز SAM بالاندماج المبكر بين الرؤية واللغة. بالإضافة إلى ذلك، حقق النموذج المقترح EVF-SAM الذي يحتوي على 1.32 مليار معامل أداءً أعلى بكثير بينما خفض عدد المعامل بنسبة تقارب 82% مقارنة بنماذج SAM السابقة القائمة على نماذج متعددة الوسائط كبيرة الحجم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp