HyperAIHyperAI

Command Palette

Search for a command to run...

دمج التوجيه اللغوي في مطابقة الصورة-النص لتصحيح السلبيات الخاطئة

Zhongtian Du Jenq-Neng Hwang Zerun Feng Caili Guo Zheng Li

الملخص

يهدف التطابق بين الصورة والنص (ITM) إلى إقامة علاقة تطابق بين الصور والجمل النصية. يُعدّ هذا التوجه أساسياً لعدة مهام تفهم الرؤية واللغة. ومع ذلك، توجد قيود في الطريقة التي تُبنى بها المعايير الحالية لـ ITM. حيث تُجمع أزواج الصور والنصوص أثناء بناء المعيار، وبالتالي تُعلّم فقط العينات التي تم زوجها أثناء الجمع على أنها إيجابية، بينما تُعلّم جميع العينات الأخرى على أنها سلبية. ونتيجة لذلك، تُفوت العديد من العلاقات الممكنة التي توجد في العينات المعلّمة كسلبية. على سبيل المثال، قد يتطابق جملة مع صورة واحدة فقط وقت الجمع، وتُعلّم هذه الصورة فقط على أنها إيجابية بالنسبة للجملة، بينما تُعلّم جميع الصور الأخرى على أنها سلبية، رغم أن بعضها قد يحتوي فعلاً على صورة تتطابق مع الجملة. تُعرف هذه العينات المُعلّمة خطأً باسم "السلبيات الكاذبة" (False Negatives). وتُدرّب النماذج الحالية لـ ITM بناءً على تسميات تحتوي على أخطاء، مما يؤدي إلى إدخال ضوضاء أثناء التدريب. في هذا البحث، نقترح إطاراً لـ ITM يدمج توجيهاً لغوياً (LG) لتصحيح السلبيات الكاذبة. ونُدخل نموذجاً مُدرّباً مسبقاً للغة إلى إطار ITM لتحديد السلبيات الكاذبة. ولتصحيح السلبيات الكاذبة، نقترح خسارة توجيه لغوي، والتي تُعدّل بشكل تكيفي مواقع السلبيات الكاذبة في فضاء التمثيل البصري-اللغوي. أظهرت التجارب الواسعة على معيارين لـ ITM أن طريقةنا تُحسّن أداء النماذج الحالية لـ ITM. ولتأكيد فعالية تصحيح السلبيات الكاذبة، أجرينا تجارب إضافية على مجموعة بيانات ECCV Caption، وهي مجموعة بيانات مُختبرة تم فيها تصحيح السلبيات الكاذبة في التسميات. وأظهرت النتائج التجريبية أن طريقةنا قادرة على استرجاع عدد أكبر من السلبيات الكاذبة ذات الصلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp