HyperAIHyperAI
منذ 2 أشهر

MaskRIS: تكبير البيانات مع الوعي بالتشوه الدلالي لتقسيم الصور المرجعية

Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
MaskRIS: تكبير البيانات مع الوعي بالتشوه الدلالي لتقسيم الصور المرجعية
الملخص

التمييز بين الصور المرجعية (RIS) هو مهمة متقدمة تجمع بين الرؤية واللغة وتتضمن تحديد وتقسيم الأشياء داخل الصورة كما يُوصف في النصوص الحرة. بينما ركزت الدراسات السابقة على مواءمة الميزات البصرية واللغوية، فإن استكشاف تقنيات التدريب مثل زيادة البيانات لا تزال قليلة الدراسة. في هذا العمل، نستكشف زيادة البيانات الفعالة لـ RIS ونقترح إطارًا جديدًا للتدريب يُسمى التمييز بين الصور المرجعية المقنعة (MaskRIS). لاحظنا أن الزيادات التقليدية للصور غير كافية لـ RIS، مما يؤدي إلى تدهور الأداء، بينما يعزز القناع العشوائي البسيط بشكل كبير من أداء RIS. يستخدم MaskRIS كل من القناع البصري والقناع النصي، ثم يتبعه التعلم السياقي الواعي بالتشوه (DCL) للاستفادة الكاملة من استراتيجية القناع. يمكن لهذا النهج أن يحسن صلابة النموذج تجاه الإخفاء والمعلومات غير الكاملة والعديد من التعقيدات اللغوية، مما يؤدي إلى تحسين كبير في الأداء. تظهر التجارب أن MaskRIS يمكن تطبيقه بسهولة على العديد من نماذج RIS المختلفة، ويتفوق على الأساليب الموجودة في كل من البيئات المراقبة بالكامل والمراقبة الضعيفة. أخيرًا، حقق MaskRIS أداءً جديدًا يتفوق على أفضل ما سبق في مجموعات البيانات RefCOCO وRefCOCO+ وRefCOCOg. يمكن الحصول على الكود من الرابط https://github.com/naver-ai/maskris.请注意,我已经按照您的要求进行了翻译,并且在保持专业性和准确性的同时,尽量使译文符合阿拉伯语的表达习惯。如果您有任何进一步的要求或需要调整的地方,请随时告知。

MaskRIS: تكبير البيانات مع الوعي بالتشوه الدلالي لتقسيم الصور المرجعية | أحدث الأوراق البحثية | HyperAI