HyperAIHyperAI

Command Palette

Search for a command to run...

VAST: نموذج وقاعدة بيانات شاملة متعددة الوسائط للرؤية والصوت والترميز النصي والنص

Sihan Chen; Handong Li; Qunbo Wang; Zijia Zhao; Mingzhen Sun; Xinxin Zhu; Jing Liu

الملخص

تم استكشاف الرؤية والنص بشكل كامل في النماذج الأساسية المعاصرة للفيديو والنص، بينما لم تتلق الوسائط الأخرى مثل الصوت والكلمات المرئية في الفيديوهات الاهتمام الكافي. في هذا البحث، نسعى إلى إقامة علاقات بين المسارات متعددة الوسائط للفيديو، بما في ذلك الرؤية، الصوت، والكلمات المرئية، والنص من خلال استكشاف مجموعة بيانات كبيرة الحجم تُولدت تلقائيًا وتُسمى VAST-27M (مجموعة بيانات الرؤية والصوت والكلمات المرئية الكبرى). تحديدًا، نقوم أولاً بجمع 27 مليون مقطع فيديو من المجال المفتوح وتدريب نموذجين منفصلين للرؤية والصوت لتوليد التوصيفات البصرية والسمعية. ثم، نستخدم نموذج لغة كبير جاهز (Large Language Model - LLM) لدمج التوصيفات المُولدة مع الكلمات المرئية ودلالات التعليمات في توصيفات متعددة الوسائط. بناءً على مجموعة البيانات المقترحة VAST-27M، قمنا بتدريب نموذج أساسي متعدد الوسائط للفيديو والنص يُسمى VAST (النموذج الأساسي للرؤية والصوت والكلمات المرئية)، والذي يمكنه الإدراك ومعالجة وسائط الرؤية والصوت والكلمات المرئية من الفيديو ودعم مهام مختلفة بشكل أفضل بما في ذلك مهام الرؤية-النص، الصوت-النص، ومهمة الفيديو متعدد الوسائط (استرجاع المعلومات، توليد التوصيفات وأسئلة وإجابات). تم إجراء تجارب واسعة النطاق لإثبات فعالية مجموعة البيانات المقترحة VAST-27M والنماذج الأساسية VAST. حقق VAST 22 نتيجة جديدة رائدة على مختلف مقاييس العبور بين الوسائط. سيتم إطلاق الشيفرة البرمجية والنماذج ومجموعة البيانات على الرابط https://github.com/TXH-mercury/VAST.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VAST: نموذج وقاعدة بيانات شاملة متعددة الوسائط للرؤية والصوت والترميز النصي والنص | مستندات | HyperAI