HyperAIHyperAI
منذ 11 أيام

دمج التوجيه اللغوي في مطابقة الصورة-النص لتصحيح السلبيات الخاطئة

{Zhongtian Du, Jenq-Neng Hwang, Zerun Feng, Caili Guo, Zheng Li}
الملخص

يهدف التطابق بين الصورة والنص (ITM) إلى إقامة علاقة تطابق بين الصور والجمل النصية. يُعدّ هذا التوجه أساسياً لعدة مهام تفهم الرؤية واللغة. ومع ذلك، توجد قيود في الطريقة التي تُبنى بها المعايير الحالية لـ ITM. حيث تُجمع أزواج الصور والنصوص أثناء بناء المعيار، وبالتالي تُعلّم فقط العينات التي تم زوجها أثناء الجمع على أنها إيجابية، بينما تُعلّم جميع العينات الأخرى على أنها سلبية. ونتيجة لذلك، تُفوت العديد من العلاقات الممكنة التي توجد في العينات المعلّمة كسلبية. على سبيل المثال، قد يتطابق جملة مع صورة واحدة فقط وقت الجمع، وتُعلّم هذه الصورة فقط على أنها إيجابية بالنسبة للجملة، بينما تُعلّم جميع الصور الأخرى على أنها سلبية، رغم أن بعضها قد يحتوي فعلاً على صورة تتطابق مع الجملة. تُعرف هذه العينات المُعلّمة خطأً باسم "السلبيات الكاذبة" (False Negatives). وتُدرّب النماذج الحالية لـ ITM بناءً على تسميات تحتوي على أخطاء، مما يؤدي إلى إدخال ضوضاء أثناء التدريب. في هذا البحث، نقترح إطاراً لـ ITM يدمج توجيهاً لغوياً (LG) لتصحيح السلبيات الكاذبة. ونُدخل نموذجاً مُدرّباً مسبقاً للغة إلى إطار ITM لتحديد السلبيات الكاذبة. ولتصحيح السلبيات الكاذبة، نقترح خسارة توجيه لغوي، والتي تُعدّل بشكل تكيفي مواقع السلبيات الكاذبة في فضاء التمثيل البصري-اللغوي. أظهرت التجارب الواسعة على معيارين لـ ITM أن طريقةنا تُحسّن أداء النماذج الحالية لـ ITM. ولتأكيد فعالية تصحيح السلبيات الكاذبة، أجرينا تجارب إضافية على مجموعة بيانات ECCV Caption، وهي مجموعة بيانات مُختبرة تم فيها تصحيح السلبيات الكاذبة في التسميات. وأظهرت النتائج التجريبية أن طريقةنا قادرة على استرجاع عدد أكبر من السلبيات الكاذبة ذات الصلة.

دمج التوجيه اللغوي في مطابقة الصورة-النص لتصحيح السلبيات الخاطئة | أحدث الأوراق البحثية | HyperAI