HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم وتوافق التمثيل متعدد الوسائط غرامياني

Giordano Cicchetti; Eleonora Grassucci; Luigi Sigillo; Danilo Comminiello

الملخص

الإدراك البشري يدمج العديد من الوسائط، مثل الرؤية والسمع واللغة، في فهم موحد للواقع المحيط. بينما حققت النماذج الوسيطية المتعددة الحديثة تقدماً كبيراً من خلال محاذاة أزواج من الوسائط عبر التعلم التضادي، فإن حلولها غير مناسبة عند توسيع نطاقها إلى وسائط متعددة. هذه النماذج عادة ما تربط كل وسيطة بمرجع محدد دون ضمان محاذاة جميع الوسائط مع بعضها البعض، مما يؤدي إلى أداء غير مثالي في المهام التي تتطلب فهماً مشتركاً لوسائط متعددة. في هذا البحث، نعيد النظر بشكل هيكلي في النهج التقليدي للمحاذاة الزوجية للتعلم الوسيطي المتعدد ونقدم قياس المحاذاة الجديد لممثلي الجراميان (GRAM)، والذي يتغلب على القيود المذكورة أعلاه. يعمل GRAM على تعلم ثم محاذاة nnn وسيطة مباشرة في الفضاء ذي الأبعاد العالية الذي تحتوي عليه تمثيلات الوسائط عن طريق تقليل حجم الجراميان للمتوازي الساقين kkk-بُعد الذي يمتد بواسطة متجهات الوسائط، مما يضمن المحاذاة الهندسية لجميع الوسائط في وقت واحد. يمكن أن يستبدل GRAM التشابه الجيباني في أي طريقة لاحقة ويكون صالحاً لـ 2 إلى nnn وسيطة، مما يقدم محاذاة أكثر دلالة بالنسبة لقياسات التشابه السابقة. تعزز الدالة الخسارة التضادية الجديدة القائمة على GRAM المحاذاة للنماذج الوسيطية المتعددة في الفضاء ذي الأبعاد العالية للتمثيلات، مما يؤدي إلى تحقيق أفضل مستوى جديد للأداء في المهام اللاحقة مثل استرجاع الفيديو-الصوت-النص وتصنيف الصوت-الفيديو. صفحة المشروع والكود والنماذج المدربة مسبقاً متاحة على https://ispamm.github.io/GRAM/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم وتوافق التمثيل متعدد الوسائط غرامياني | مستندات | HyperAI