HyperAIHyperAI
منذ 2 أشهر

EVF-SAM: الاندماج المبكر بين الرؤية واللغة لتمكين تقسيم أي شيء بناءً على النص

Yuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
EVF-SAM: الاندماج المبكر بين الرؤية واللغة لتمكين تقسيم أي شيء بناءً على النص
الملخص

نموذج تقسيم أي شيء (SAM) جذب الانتباه على نطاق واسع بسبب قدراته التفاعلية المتميزة في التقسيم باستخدام الرموز البصرية، مع نقص في استكشاف استخدام الرموز النصية. في هذا البحث، نقوم بدراسة تجريبية لتحديد ما إذا كانت مُشفِّرات الرموز النصية (مثل CLIP أو LLM) مناسبة لتكييف SAM للتقسيم المرجعي للتعبيرات، ونقدم نموذج EVF-SAM القائم على الاندماج المبكر بين الرؤية واللغة. يعتبر EVF-SAM طريقة تقسيم مرجعية بسيطة ومعتبرة فعالة، حيث يستخدم الرموز متعددة الوسائط (أي الصور والنصوص) ويتألف من نموذج رؤية-لغة مُدرب مسبقًا لإنشاء الرموز المرجعية ونموذج SAM للتقسيم. بشكل مفاجئ، لاحظنا أن: (1) الرموز متعددة الوسائط و(2) نماذج الرؤية-اللغة ذات الاندماج المبكر (مثل BEIT-3) تكون مفيدة لتحفيز SAM لتحقيق تقسيم دقيق للتعبيرات المرجعية. أظهرت تجاربنا أن النموذج المقترح EVF-SAM القائم على BEIT-3 يمكنه تحقيق أداء يتفوق على أفضل الأداء السابق في مجموعات بيانات RefCOCO/+/g للتقسيم المرجعي للتعبيرات، مما يثبت تفوق استخدام تحفيز SAM بالاندماج المبكر بين الرؤية واللغة. بالإضافة إلى ذلك، حقق النموذج المقترح EVF-SAM الذي يحتوي على 1.32 مليار معامل أداءً أعلى بكثير بينما خفض عدد المعامل بنسبة تقارب 82% مقارنة بنماذج SAM السابقة القائمة على نماذج متعددة الوسائط كبيرة الحجم.

EVF-SAM: الاندماج المبكر بين الرؤية واللغة لتمكين تقسيم أي شيء بناءً على النص | أحدث الأوراق البحثية | HyperAI