التعلم التبايني على مستوى الرمز مع الإثارة الواعية بالنمط للاعتراف بالنية متعددة الأوضاع

التعرف على النوايا متعددة الوسائط يهدف إلى الاستفادة من وسائط متنوعة مثل التعبيرات، حركات الجسم ونبرة الصوت لفهم نية المستخدم، مما يشكل مهمة حاسمة لفهم اللغة والسلوك البشري في السيناريوهات متعددة الوسائط الحقيقية. ومع ذلك، فإن معظم الطرق الموجودة تتجاهل الارتباطات المحتملة بين الوسائط المختلفة وتواجه قيودًا في تعلم الخصائص الدلالية بفعالية من الوسائط غير اللفظية. في هذا البحث، نقدم طريقة التعلم المقارن على مستوى الرموز مع تحفيز واعٍ بالوسائط (TCL-MAP) لمعالجة التحديات المذكورة أعلاه. لبناء بيئة دلالية متعددة الوسائط مثلى للنص، طورنا وحدة تحفيز واعية بالوسائط (MAP)، والتي تقوم بتوفيق وتجميع الخصائص من الوسائط النصية والفيديو والصوتية باستخدام توفيق الوسائط القائم على الشبه وآلية الانتباه عبر الوسائط. بناءً على التحفيز الواعي بالوسائط والعلامات الصحيحة، يقوم الإطار المقترح للتعلم المقارن على مستوى الرموز (TCL) ببناء عينات محسّنة واستخدام خسارة NT-Xent على رمز العلامة. بشكل خاص، يستفيد TCL من الرؤى الدلالية المثلى المستخلصة من علامات النوايا لتوجيه عمليات التعلم للوسائط الأخرى بالمقابل. تظهر التجارب الشاملة أن طرقنا حققت تحسينات ملحوظة مقارنة بالطرق الأكثر حداثة. بالإضافة إلى ذلك، تثبت تحليلات الاستبعاد الأفضلية التي يتمتع بها التحفيز الواعي بالوسائط على التحفيز الذي تم تصميمه يدويًا، مما له أهمية كبيرة في تعلم التحفيز متعدد الوسائط. تم إصدار الكود في https://github.com/thuiar/TCL-MAP.