VLIS: نماذج اللغة الأحادية توجه إنشاء اللغة متعددة الوسائط

توليد اللغة متعددة الوسائط، والذي يستفيد من التكامل بين اللغة والرؤية، هو مجال يتوسع بسرعة. ومع ذلك، تواجه النماذج الحالية للرؤية-اللغة تحديات في المهام التي تتطلب فهمًا لغويًا معقدًا. لحل هذه المشكلة، نقدم نموذج الرؤية-اللغة كأوزان عينات ذات أهمية (VLIS)، وهو إطار جديد يجمع بين قدرة نماذج الرؤية-اللغة على التعديل البصري وفهم اللغة لنماذج اللغة الأحادية الوسيط التي تعتمد فقط على النص دون الحاجة إلى تدريب إضافي. يقوم هذا الإطار باستخراج المعلومات المتبادلة نقطة بنقطة لكل صورة ونص من نموذج رؤية-لغة واستخدام القيمة كوزن عينة ذات أهمية لتعديل احتمالية الرموز من نموذج نصي فقط. يحسن VLIS أداء نماذج الرؤية-اللغة في مهام متنوعة، بما في ذلك فهم المنطق الشائع (WHOOPS, OK-VQA, و ScienceQA) وتوليد النصوص المعقدة (Concadia, Image Paragraph Captioning, و ROCStories). تشير نتائجنا إلى أن VLIS يمثل اتجاهًا واعدًا جديدًا في توليد اللغة متعددة الوسائط.