HyperAIHyperAI

Command Palette

Search for a command to run...

VLIS: نماذج اللغة الأحادية توجه إنشاء اللغة متعددة الوسائط

Jiwan Chung; Youngjae Yu

الملخص

توليد اللغة متعددة الوسائط، والذي يستفيد من التكامل بين اللغة والرؤية، هو مجال يتوسع بسرعة. ومع ذلك، تواجه النماذج الحالية للرؤية-اللغة تحديات في المهام التي تتطلب فهمًا لغويًا معقدًا. لحل هذه المشكلة، نقدم نموذج الرؤية-اللغة كأوزان عينات ذات أهمية (VLIS)، وهو إطار جديد يجمع بين قدرة نماذج الرؤية-اللغة على التعديل البصري وفهم اللغة لنماذج اللغة الأحادية الوسيط التي تعتمد فقط على النص دون الحاجة إلى تدريب إضافي. يقوم هذا الإطار باستخراج المعلومات المتبادلة نقطة بنقطة لكل صورة ونص من نموذج رؤية-لغة واستخدام القيمة كوزن عينة ذات أهمية لتعديل احتمالية الرموز من نموذج نصي فقط. يحسن VLIS أداء نماذج الرؤية-اللغة في مهام متنوعة، بما في ذلك فهم المنطق الشائع (WHOOPS, OK-VQA, و ScienceQA) وتوليد النصوص المعقدة (Concadia, Image Paragraph Captioning, و ROCStories). تشير نتائجنا إلى أن VLIS يمثل اتجاهًا واعدًا جديدًا في توليد اللغة متعددة الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp