تعلم وتوافق التمثيل متعدد الوسائط غرامياني

الإدراك البشري يدمج العديد من الوسائط، مثل الرؤية والسمع واللغة، في فهم موحد للواقع المحيط. بينما حققت النماذج الوسيطية المتعددة الحديثة تقدماً كبيراً من خلال محاذاة أزواج من الوسائط عبر التعلم التضادي، فإن حلولها غير مناسبة عند توسيع نطاقها إلى وسائط متعددة. هذه النماذج عادة ما تربط كل وسيطة بمرجع محدد دون ضمان محاذاة جميع الوسائط مع بعضها البعض، مما يؤدي إلى أداء غير مثالي في المهام التي تتطلب فهماً مشتركاً لوسائط متعددة. في هذا البحث، نعيد النظر بشكل هيكلي في النهج التقليدي للمحاذاة الزوجية للتعلم الوسيطي المتعدد ونقدم قياس المحاذاة الجديد لممثلي الجراميان (GRAM)، والذي يتغلب على القيود المذكورة أعلاه. يعمل GRAM على تعلم ثم محاذاة $n$ وسيطة مباشرة في الفضاء ذي الأبعاد العالية الذي تحتوي عليه تمثيلات الوسائط عن طريق تقليل حجم الجراميان للمتوازي الساقين $k$-بُعد الذي يمتد بواسطة متجهات الوسائط، مما يضمن المحاذاة الهندسية لجميع الوسائط في وقت واحد. يمكن أن يستبدل GRAM التشابه الجيباني في أي طريقة لاحقة ويكون صالحاً لـ 2 إلى $n$ وسيطة، مما يقدم محاذاة أكثر دلالة بالنسبة لقياسات التشابه السابقة. تعزز الدالة الخسارة التضادية الجديدة القائمة على GRAM المحاذاة للنماذج الوسيطية المتعددة في الفضاء ذي الأبعاد العالية للتمثيلات، مما يؤدي إلى تحقيق أفضل مستوى جديد للأداء في المهام اللاحقة مثل استرجاع الفيديو-الصوت-النص وتصنيف الصوت-الفيديو. صفحة المشروع والكود والنماذج المدربة مسبقاً متاحة على https://ispamm.github.io/GRAM/.