منذ 8 أشهر

الملخص

التمييز بين الصور المرجعية (RIS) هو مهمة متقدمة تجمع بين الرؤية واللغة وتتضمن تحديد وتقسيم الأشياء داخل الصورة كما يُوصف في النصوص الحرة. بينما ركزت الدراسات السابقة على مواءمة الميزات البصرية واللغوية، فإن استكشاف تقنيات التدريب مثل زيادة البيانات لا تزال قليلة الدراسة. في هذا العمل، نستكشف زيادة البيانات الفعالة لـ RIS ونقترح إطارًا جديدًا للتدريب يُسمى التمييز بين الصور المرجعية المقنعة (MaskRIS). لاحظنا أن الزيادات التقليدية للصور غير كافية لـ RIS، مما يؤدي إلى تدهور الأداء، بينما يعزز القناع العشوائي البسيط بشكل كبير من أداء RIS. يستخدم MaskRIS كل من القناع البصري والقناع النصي، ثم يتبعه التعلم السياقي الواعي بالتشوه (DCL) للاستفادة الكاملة من استراتيجية القناع. يمكن لهذا النهج أن يحسن صلابة النموذج تجاه الإخفاء والمعلومات غير الكاملة والعديد من التعقيدات اللغوية، مما يؤدي إلى تحسين كبير في الأداء. تظهر التجارب أن MaskRIS يمكن تطبيقه بسهولة على العديد من نماذج RIS المختلفة، ويتفوق على الأساليب الموجودة في كل من البيئات المراقبة بالكامل والمراقبة الضعيفة. أخيرًا، حقق MaskRIS أداءً جديدًا يتفوق على أفضل ما سبق في مجموعات البيانات RefCOCO وRefCOCO+ وRefCOCOg. يمكن الحصول على الكود من الرابط https://github.com/naver-ai/maskris.请注意，我已经按照您的要求进行了翻译，并且在保持专业性和准确性的同时，尽量使译文符合阿拉伯语的表达习惯。如果您有任何进一步的要求或需要调整的地方，请随时告知。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار