HyperAIHyperAI

Command Palette

Search for a command to run...

MaskRIS: تكبير البيانات مع الوعي بالتشوه الدلالي لتقسيم الصور المرجعية

Minhyun Lee Seungho Lee Song Park Dongyoon Han Byeongho Heo Hyunjung Shim

الملخص

التمييز بين الصور المرجعية (RIS) هو مهمة متقدمة تجمع بين الرؤية واللغة وتتضمن تحديد وتقسيم الأشياء داخل الصورة كما يُوصف في النصوص الحرة. بينما ركزت الدراسات السابقة على مواءمة الميزات البصرية واللغوية، فإن استكشاف تقنيات التدريب مثل زيادة البيانات لا تزال قليلة الدراسة. في هذا العمل، نستكشف زيادة البيانات الفعالة لـ RIS ونقترح إطارًا جديدًا للتدريب يُسمى التمييز بين الصور المرجعية المقنعة (MaskRIS). لاحظنا أن الزيادات التقليدية للصور غير كافية لـ RIS، مما يؤدي إلى تدهور الأداء، بينما يعزز القناع العشوائي البسيط بشكل كبير من أداء RIS. يستخدم MaskRIS كل من القناع البصري والقناع النصي، ثم يتبعه التعلم السياقي الواعي بالتشوه (DCL) للاستفادة الكاملة من استراتيجية القناع. يمكن لهذا النهج أن يحسن صلابة النموذج تجاه الإخفاء والمعلومات غير الكاملة والعديد من التعقيدات اللغوية، مما يؤدي إلى تحسين كبير في الأداء. تظهر التجارب أن MaskRIS يمكن تطبيقه بسهولة على العديد من نماذج RIS المختلفة، ويتفوق على الأساليب الموجودة في كل من البيئات المراقبة بالكامل والمراقبة الضعيفة. أخيرًا، حقق MaskRIS أداءً جديدًا يتفوق على أفضل ما سبق في مجموعات البيانات RefCOCO وRefCOCO+ وRefCOCOg. يمكن الحصول على الكود من الرابط https://github.com/naver-ai/maskris.请注意,我已经按照您的要求进行了翻译,并且在保持专业性和准确性的同时,尽量使译文符合阿拉伯语的表达习惯。如果您有任何进一步的要求或需要调整的地方,请随时告知


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp