CREMA: استنتاج متعدد الوسائط عام وفعال عبر الدمج الوظيفي متعدد الوسائط للصورة واللغة

رغم التقدم المثير في النماذج متعددة الوسائط الحديثة في التفكير، تظل هذه النماذج محدودة من حيث المرونة والكفاءة، إذ تُعالج عادةً عددًا قليلاً من الوسائط الثابتة، وتحتاج إلى تحديث عدد كبير من المعلمات. يعالج هذا البحث التحديات الحرجة المذكورة، ويناقش إطارًا عامًا وفعالًا للغاية يُسمى CREMA، وهو إطار مرن لدمج الوسائط يُمكنه دمج أي وسيلة جديدة لتعزيز التفكير في الفيديو. نبدأ بتوسيع مجموعة من الوسائط المفيدة (مثل التدفق البصري، وسحابة النقاط ثلاثية الأبعاد، والصوت، وخرائط الحرارة الحرارية، وخرائط اللمس) من الفيديوهات المعطاة دون الحاجة إلى تسمية يدوية إضافية، وذلك باستخدام أجهزة استشعار أو نماذج مُدرّبة مسبقًا. ثم نُقدّم محول استعلام (query transformer) يحتوي على وحدات متعددة فعّالة من حيث المعلمات، مرتبطة بكل وسيلة متاحة. حيث يقوم هذا المحول بتحويل ميزات الوسائط المختلفة إلى فضاء تمثيلات الرموز (token embedding) الخاص بالنموذج اللغوي الكبير (LLM)، مما يسمح للنموذج بدمج أنواع مختلفة من البيانات لإنتاج الاستجابات. علاوةً على ذلك، نقترح تصميمًا جديدًا للدمج متعدد الوسائط تدريجيًا، يدعمه وحدة دمج خفيفة الوزن واستراتيجية تدريب متسلسلة حسب الوسائط، مما يساعد على ضغط المعلومات عبر الوسائط المساعدة المختلفة، مع الحفاظ على الكفاءة الحسابية في النموذج اللغوي الكبير، وفي الوقت نفسه تحسين الأداء. نختبر طريقةنا على 7 مهام للتفكير متعدد الوسائط في الفيديو-اللغة، مدعومة بوسائط متنوعة، بما في ذلك مهام التساؤل عن الفيديو التقليدية (VideoQA) والأسئلة المرتبطة بالصوت/الثلاثية الأبعاد/اللمس/الحرارة، ونحقق أداءً أفضل أو مساوٍ للنماذج متعددة الوسائط القوية، مثل OneLLM وBLIP-2 وSeViLA، مع تقليل أكثر من 90% من عدد المعلمات القابلة للتدريب. كما نقدم تحليلات موسعة لـ CREMA، تشمل تأثير كل وسيلة على مجالات التفكير، وتصميم وحدة الدمج، وتصاميم توضيحية أمثلة.