HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال الضمني بين الأوضاع وتوحيدها لاسترجاع الشخص من النص إلى الصورة

Ding Jiang Mang Ye

الملخص

استرجاع الشخص من النص إلى الصورة يهدف إلى تحديد الشخص المستهدف بناءً على استعلام وصف نصي معطى. التحدي الرئيسي هو تعلم الخريطة بين الوسائط البصرية والنصية في فضاء خفي مشترك. قد حاولت الدراسات السابقة مواجهة هذا التحدي عن طريق الاستفادة من نماذج أحادية الوسيلة تم تدريبها بشكل منفصل لاستخراج الميزات البصرية والنصية. ومع ذلك، فإن هذه الأساليب تفتقر إلى قدرات التناسق الأساسية المطلوبة للتطابق الفعال بين البيانات متعددة الوسائط. بالإضافة إلى ذلك، تستخدم هذه الدراسات المعلومات السابقة لاستكشاف تناسقات الأجزاء الصريحة، مما قد يؤدي إلى تشوه المعلومات داخل الوسيلة. لحل هذه المشكلات، نقدم IRRA: إطار عمل للتنقيح الضمني للعلاقات والتناسق عبر الوسائط الذي يتعلم العلاقات بين الرموز البصرية-النصية المحلية ويحسن التطابق الشامل بين الصورة والنص دون الحاجة إلى إشراف سابق إضافي. بوجه خاص، نصمم أولًا وحدة تنقيح العلاقة الضمنية في نموذج التعلم اللغوي المقنّع (masked language modeling). هذا يحقق التفاعل عبر الوسائط من خلال دمج العلامات البصرية في الرموز النصية باستخدام مشفّر التفاعل متعدد الوسائط عبر الوسائط. ثانيًا، لتوافق المغامرات البصرية والنصية بشكل شامل، تم اقتراح تقترح مطابقة توزيع الشبه لتقليل الانحراف KL بين توزيعات شبه الصورة-النص وتوزيعات التطابق المعيارية. حققت الطريقة المقترحة نتائج جديدة رائدة على جميع الثلاثة قواعد بيانات عامة، بمعدل فارق ملحوظ يتراوح بين 3٪ و9٪ بالنسبة لدقة المرتبة الأولى مقارنة بالأساليب السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp