منذ 6 أشهر

الملخص

في هذه الورقة، نقدّم وحدة إعادة تهيئة الفيديو المعتمدة على النص (TCR) التي تستخدم مشغّلًا بصريًا مُدرّبًا مسبقًا وثابتًا، إلى جانب نموذج لغة كبير (LLM)، لمعالجة تسلسلات فيديو طويلة لأداء مهمة معينة. تقوم وحدة TCR بتحديد السمات البصرية ذات الصلة من الفيديو بناءً على شرط نصي، ثم تقدّم هذه السمات إلى نموذج لغة كبير لإنشاء رد نصي. وبفضل تصميمها الخفيف واستخدامها للاهتمام المتقاطع، يمكن 통ق TCR معالجة أكثر من 100 إطار في كل مرة باستخدام الاهتمام العادي دون الحاجة إلى تنفيذ مُحسَّن. ونقدّم المساهمات التالية: (أ) نصمم معمارية عينة تعتمد على المُحَوِّل (Transformer) قادرة على معالجة فيديوهات طويلة بشروط محددة وفقًا للمهمة، إلى جانب طريقة تدريب تمكنها من جسر النماذج البصرية واللغوية المُدرَّبة مسبقًا؛ (ب) نحدد المهام التي يمكن أن تستفيد من رؤية فيديو أطول؛ (ج) نختبر تأثيرها تجريبيًا على مجموعة واسعة من مهام التقييم، بما في ذلك NextQA وEgoSchema وتحدي EGO4D-LTA.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار