منذ 8 أشهر

الملخص

النماذج اللغوية المرئية (VLMs) التي تم تدريبها مسبقًا على أزواج صور-نصوص كبيرة الحجم قد أظهرت قابلية نقل مثيرة للإعجاب في مجموعة متنوعة من المهام المرئية. نقل المعرفة من هذه النماذج القوية هو اتجاه واعد لبناء نماذج فعالة للتعرف على الفيديو. ومع ذلك، فإن الاستكشاف الحالي في هذا المجال لا يزال محدودًا. نعتقد أن القيمة الأكبر للنماذج المدربة مسبقًا تكمن في بناء جسر بين المجالات المرئية والنصية. في هذا البحث، نقترح إطارًا جديدًا يُسمى BIKE، والذي يستخدم الجسر متعدد الوسائط لاستكشاف المعرفة ثنائية الاتجاه: i) نقدم آلية ربط خصائص الفيديو، والتي تستفيد من معرفة الفيديو إلى النص لإنشاء خصائص مساعدة نصية تكمل التعرف على الفيديو. ii) كما نقدم آلية تحديد المفاهيم الزمنية التي تستغل الخبرة من النص إلى الفيديو لالتقاط الأهمية الزمنية بطريقة خالية من المعاملات، مما يؤدي إلى تعزيز تمثيل الفيديو. أظهرت الدراسات الشاملة على ستة قواعد بيانات فيديو شهيرة، بما في ذلك Kinetics-400 و 600، UCF-101، HMDB-51، ActivityNet و Charades، أن طريقتنا تحقق أفضل الأداء حاليًا في سيناريوهات التعرف المختلفة مثل التعرف العام والتعرف بدون أمثلة (zero-shot) والتعرف بوجود عدد قليل من الأمثلة (few-shot). حقق أفضل نموذج لدينا دقة غير مسبوقة بلغت 88.6٪ في Kinetics-400 الصعبة باستخدام نموذج CLIP المُطلق. يمكن الحصول على الكود من https://github.com/whwu95/BIKE .

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف المعرفة ثنائية الاتجاه بين الأنظمة الحسية للاعتراف بالفيديو باستخدام نماذج الرؤية واللغة المدربة مسبقًا

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف المعرفة ثنائية الاتجاه بين الأنظمة الحسية للاعتراف بالفيديو باستخدام نماذج الرؤية واللغة المدربة مسبقًا

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استكشاف المعرفة ثنائية الاتجاه بين الأنظمة الحسية للاعتراف بالفيديو باستخدام نماذج الرؤية واللغة المدربة مسبقًا

Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters