HyperAIHyperAI

Command Palette

Search for a command to run...

كل شيء في واحد: استكشاف التدريب المسبق الموحّد للصورة واللغة

Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou

الملخص

تتكون النماذج الشائعة للتدريب المسبق متعددة الوسائط بين الفيديو والنص \cite{actbert,clipbert,violet} من ثلاث مكونات: معالج فيديو، ومعالج نصي، ومحول تكامل متعدد الوسائط من نوع Transformer. وتحاول هذه النماذج تحقيق أداءً أفضل من خلال استخدام معالجات أحادية الوسائط أثقل أو محولات تكامل متعددة الوسائط أكثر تعقيدًا، مما يؤدي إلى زيادة عدد المعلمات وتقليل الكفاءة في المهام التالية. في هذا العمل، نقدم لأول مرة نموذجًا متكاملًا من النهاية إلى النهاية يُسمى \textit{محول all-in-one}، والذي يحول الإشارات الخام من الفيديو والنص إلى تمثيلات مشتركة باستخدام بنية أساسية موحدة. ونُبرز أن المعلومات الزمنية الفريدة المميزة للبيانات المرئية تمثل عائقًا رئيسيًا يعيق تصميم محول غير مرتبط بنوع الوسائط. وللتغلب على هذا التحدي، نُقدّم عملية تدوير الرموز (token rolling) جديدة وفعالة، والتي تُشفّر التمثيلات الزمنية من مقاطع الفيديو بطريقة غير معلمية. وتكمن الفعالية في التصميم الدقيق الذي يمكّن من تعلم التمثيلات لكل من الإدخالات متعددة الوسائط (الفيديو والنص) والإدخالات أحادية الوسائط باستخدام نموذج أساسي موحد. بعد التدقيق الدقيق، يتم نقل النموذج المُدرّب مسبقًا (all-in-one Transformer) إلى مجموعة متنوعة من المهام التالية المتعلقة بالفيديو والنص، بما في ذلك استرجاع الفيديو حسب النص، والإجابة على الأسئلة المتعلقة بالفيديو، واختيار متعدد، والاستدلال البصري على المعرفة الشائعة. وتُظهر النتائج أداءً متقدمًا جدًا على تسعة مجموعات بيانات، مع أقل عدد من العمليات الحسابية (FLOPs) مقارنةً بالمنافسين، مما يُثبت تفوق طريقة عملنا. تم إتاحة الكود والنماذج المُدرّبة مسبقًا عبر الرابط: https://github.com/showlab/all-in-one.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
كل شيء في واحد: استكشاف التدريب المسبق الموحّد للصورة واللغة | مستندات | HyperAI