HyperAIHyperAI
منذ 2 أشهر

الاستدلال الضمني بين الأوضاع وتوحيدها لاسترجاع الشخص من النص إلى الصورة

Jiang, Ding ; Ye, Mang
الاستدلال الضمني بين الأوضاع وتوحيدها لاسترجاع الشخص من النص إلى الصورة
الملخص

استرجاع الشخص من النص إلى الصورة يهدف إلى تحديد الشخص المستهدف بناءً على استعلام وصف نصي معطى. التحدي الرئيسي هو تعلم الخريطة بين الوسائط البصرية والنصية في فضاء خفي مشترك. قد حاولت الدراسات السابقة مواجهة هذا التحدي عن طريق الاستفادة من نماذج أحادية الوسيلة تم تدريبها بشكل منفصل لاستخراج الميزات البصرية والنصية. ومع ذلك، فإن هذه الأساليب تفتقر إلى قدرات التناسق الأساسية المطلوبة للتطابق الفعال بين البيانات متعددة الوسائط. بالإضافة إلى ذلك، تستخدم هذه الدراسات المعلومات السابقة لاستكشاف تناسقات الأجزاء الصريحة، مما قد يؤدي إلى تشوه المعلومات داخل الوسيلة. لحل هذه المشكلات، نقدم IRRA: إطار عمل للتنقيح الضمني للعلاقات والتناسق عبر الوسائط الذي يتعلم العلاقات بين الرموز البصرية-النصية المحلية ويحسن التطابق الشامل بين الصورة والنص دون الحاجة إلى إشراف سابق إضافي. بوجه خاص، نصمم أولًا وحدة تنقيح العلاقة الضمنية في نموذج التعلم اللغوي المقنّع (masked language modeling). هذا يحقق التفاعل عبر الوسائط من خلال دمج العلامات البصرية في الرموز النصية باستخدام مشفّر التفاعل متعدد الوسائط عبر الوسائط. ثانيًا، لتوافق المغامرات البصرية والنصية بشكل شامل، تم اقتراح تقترح مطابقة توزيع الشبه لتقليل الانحراف KL بين توزيعات شبه الصورة-النص وتوزيعات التطابق المعيارية. حققت الطريقة المقترحة نتائج جديدة رائدة على جميع الثلاثة قواعد بيانات عامة، بمعدل فارق ملحوظ يتراوح بين 3٪ و9٪ بالنسبة لدقة المرتبة الأولى مقارنة بالأساليب السابقة.

الاستدلال الضمني بين الأوضاع وتوحيدها لاسترجاع الشخص من النص إلى الصورة | أحدث الأوراق البحثية | HyperAI