HyperAIHyperAI

Command Palette

Search for a command to run...

مُعادِل مُتَحَدِّثٌ بالنص لفهم الفيديو الطويل

Bruno Korbar Yongqin Xian Alessio Tonioni Andrew Zisserman Federico Tombari

الملخص

في هذه الورقة، نقدّم وحدة إعادة تهيئة الفيديو المعتمدة على النص (TCR) التي تستخدم مشغّلًا بصريًا مُدرّبًا مسبقًا وثابتًا، إلى جانب نموذج لغة كبير (LLM)، لمعالجة تسلسلات فيديو طويلة لأداء مهمة معينة. تقوم وحدة TCR بتحديد السمات البصرية ذات الصلة من الفيديو بناءً على شرط نصي، ثم تقدّم هذه السمات إلى نموذج لغة كبير لإنشاء رد نصي. وبفضل تصميمها الخفيف واستخدامها للاهتمام المتقاطع، يمكن 통ق TCR معالجة أكثر من 100 إطار في كل مرة باستخدام الاهتمام العادي دون الحاجة إلى تنفيذ مُحسَّن. ونقدّم المساهمات التالية: (أ) نصمم معمارية عينة تعتمد على المُحَوِّل (Transformer) قادرة على معالجة فيديوهات طويلة بشروط محددة وفقًا للمهمة، إلى جانب طريقة تدريب تمكنها من جسر النماذج البصرية واللغوية المُدرَّبة مسبقًا؛ (ب) نحدد المهام التي يمكن أن تستفيد من رؤية فيديو أطول؛ (ج) نختبر تأثيرها تجريبيًا على مجموعة واسعة من مهام التقييم، بما في ذلك NextQA وEgoSchema وتحدي EGO4D-LTA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُعادِل مُتَحَدِّثٌ بالنص لفهم الفيديو الطويل | مستندات | HyperAI