HyperAIHyperAI

Command Palette

Search for a command to run...

LanguageBind: توسيع التدريب المسبق للفيديو واللغة إلى ن-نمطية من خلال التناسق الدلالي القائم على اللغة

Bin Zhu; Bin Lin; Munan Ning; Yang Yan; Jiaxi Cui; HongFa Wang; Yatian Pang; Wenhao Jiang; Junwu Zhang; Zongwei Li; Wancai Zhang; Zhifeng Li; Wei Liu; Li Yuan

الملخص

حققت التدريب المسبق للفيديو واللغة (VL) تحسينًا ملحوظًا في العديد من المهام اللاحقة. ومع ذلك، يصعب توسيع إطار التدريب المسبق الحالي للفيديو واللغة إلى وسائط متعددة (N وسائط، N≥3) تتجاوز الرؤية واللغة. لذلك، نقترح LanguageBind، حيث يتم استخدام اللغة كوسيلة ربط بين الوسائط المختلفة لأن اللغة تم استكشافها بشكل جيد وتتضمن معانيًا غنية. بصفة خاصة، نجمد مُشفِّر اللغة الذي تم الحصول عليه من خلال التدريب المسبق للفيديو واللغة، ثم نتدرب على مُشفِّرات الوسائط الأخرى باستخدام التعلم التضادي. نتيجة لذلك، يتم خرائط جميع الوسائط إلى فضاء خصائص مشترك، مما يحقق تناسق دلالي متعدد الوسائط. بينما يضمن LanguageBind إمكانية توسيع وسائط الفيديو واللغة إلى N وسائط، فإننا نحتاج أيضًا إلى مجموعة بيانات عالية الجودة تحتوي على أزواج بيانات متناسقة محورها اللغة. لذلك، نقترح VIDAL-10M التي تتضمن الفيديو والأشعة تحت الحمراء والعمق الصوتي وأوصافهم النصية المرتبطة بها، والتي نطلق عليها اسم VIDAL-10M. في VIDAL-10M الخاصة بنا، تكون جميع مقاطع الفيديو من منصات الفيديوهات القصيرة ذات المعاني الكاملة وليس من مقاطع طويلة مقطوعة منها، ويتم تناسق جميع وسائط الفيديو والعمق والإشعاع تحت الحمري والأصوات مع أوصافها النصية. حقق LanguageBind أداءً أفضل بكثير في نطاق واسع يشمل 15 مقاييس تغطي الفيديو والأصوات والعمق والإشعاع تحت الحمري. بالإضافة إلى ذلك، قدمت العديد من التجارب أدلة على فعالية LanguageBind في تحقيق التناسق غير المباشر والتكميلية بين الوسائط المتعددة والمتنوعة.رابط الكود: https://github.com/PKU-YuanGroup/LanguageBind


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp