HyperAIHyperAI

Command Palette

Search for a command to run...

استماع لمشاهدة: التعرف على الإجراءات من خلال معاينة الصوت

Ruohan Gao Tae-Hyun Oh Kristen Grauman Lorenzo Torresani

الملخص

في مواجهة الفيض الهائل من البيانات المرئية، أصبحت النماذج الحالية الباهظة التكلفة التي تعتمد على التصنيف على مستوى القطع (clip-level) أكثر تقييدًا من حيث الممارسة. نقترح إطارًا فعّالًا للتعرف على الحركات في الفيديوهات غير المُعدّلة، يُستخدم الصوت كآلية مُقدّمة (preview mechanism) للتخلص من التكرار البصري القصير الأمد والطويل الأمد. أولاً، نصمم إطارًا يُسمى ImgAud2Vid، يُولّد خصائص على مستوى القطع من خلال استخلاص معلومات من وسائط أخف—إطارًا واحدًا وصوته المرافق—مما يقلّل من التكرار الزمني القصير، وبالتالي يُحسّن كفاءة التعرف على مستوى القطع. ثانيًا، بالاعتماد على إطار ImgAud2Vid، نقترح بشكل إضافي ImgAud-Skimming، وهو شبكة انتباه مبنية على الذاكرة طويلة القصيرة الأمد (attention-based long short-term memory network)، تختار تدريجيًا اللحظات المفيدة في الفيديوهات غير المُعدّلة، مما يقلّل من التكرار الزمني الطويل الأمد، وبالتالي يُعزّز كفاءة التعرف على مستوى الفيديو. أظهرت تجارب واسعة على أربع مجموعات بيانات للتعرف على الحركات أن منهجنا يحقق الأداء الأفضل في مجال الدقة التعرفية والسرعة معًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp