HyperAIHyperAI

Command Palette

Search for a command to run...

GEB+: معيار لوصف حدود الأحداث العامة، وترسيخها واسترجاعها

Yuxuan Wang Difei Gao Licheng Yu Weixian Lei Matt Feiszli Mike Zheng Shou

الملخص

أظهرت علوم الإدراك أن البشر يدركون الفيديوهات من حيث الأحداث التي تفصلها التغيرات في حالة المواضيع الرئيسية. تعمل التغيرات الحالة على تحفيز أحداث جديدة وهي من بين أكثر المعلومات المفيدة ضمن الكمية الكبيرة من المعلومات الزائدة التي يتم إدراكها. ومع ذلك، ركزت البحوث السابقة على الفهم الشامل للمقاطع دون تقييم التغيرات الدقيقة داخلها. في هذا البحث، نقدم مجموعة بيانات جديدة تسمى Kinetic-GEB+. تتكون هذه المجموعة من أكثر من 170 ألف حد فاصل مرتبط بتعليقات تصف التغيرات الحالة للأحداث العامة في 12 ألف فيديو. بناءً على هذه المجموعة البيانات الجديدة، نقترح ثلاث مهام تدعم تطوير فهم أكثر دقة ومتانة وأكثر شبهاً بالإنسان للفيديوهات عبر التغيرات الحالة. نقيم العديد من النماذج الأولية الممثلة في مجموعتنا البيانات، حيث صممنا أيضًا طريقة نموذجية جديدة تُعرف بالـ TPD (الاختلاف الزوجي القائم على الزمن) لموديل الاختلاف البصري وحققنا تحسينات أداء كبيرة. بالإضافة إلى ذلك، تظهر النتائج أن هناك ما زال تحديات ضخمة أمام الأساليب الحالية فيما يتعلق باستخدام مختلف المستويات الدقيقة، تمثيل الاختلاف البصري، والتحديد الدقيق للتغيرات الحالة. يُظهر التحليل الأعمق أن مجموعتنا البيانات يمكن أن تسهم في تطوير أساليب أكثر قوة لفهم التغيرات الحالة وبالتالي تحسين الفهم على مستوى الفيديو. يمكن الوصول إلى المجموعة البيانات التي تتضمن كلاً من الفيديوهات والحدود عند https://yuxuan-w.github.io/GEB-plus/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp