منذ 6 أشهر

الملخص

تم تطبيق تقسيم الحركة في الفيديو على نطاق واسع في العديد من المجالات. وقد اعتمدت الدراسات السابقة بشكل رئيسي على نماذج الرؤية القائمة على الفيديو لتحقيق هذا الهدف. ومع ذلك، فإن هذه النماذج تعتمد غالبًا على مجال استقبال كبير، أو أساليب LSTM أو Transformer لالتقاط الاعتماديات طويلة المدى داخل الفيديوهات، مما يؤدي إلى متطلبات كبيرة من الموارد الحسابية. ولحل هذه التحديات، تم اقتراح نموذج مبني على الرسوم البيانية (Graph-based model). ولكن النماذج الرسومية السابقة كانت أقل دقة. لذلك، تقدم هذه الدراسة نهجًا مبنيًا على البنية الرسومية يُسمى Semantic2Graph، لتمثيل الاعتماديات طويلة المدى في الفيديوهات، مما يقلل من التكاليف الحسابية ويرفع من الدقة. نحن نقوم ببناء هيكل رسومي للفيديو على مستوى الإطارات (frame-level). ونستخدم الحواف الزمنية (Temporal edges) لتمثيل العلاقات الزمنية وترتيب الحركات داخل الفيديو. بالإضافة إلى ذلك، قمنا بتصميم حواف معنوية إيجابية وسلبية، مع أوزان محددة لكل حافة، لالتقاط العلاقات المعنوية قصيرة وطويلة المدى في الحركات داخل الفيديو. وتتضمن صفات العقد مجموعة غنية من الميزات متعددة الوسائط المستخرجة من محتوى الفيديو، والهياكل الرسومية، ونصوص التسميات، بما في ذلك إشارات بصرية وبنائية ومعنوية. ولدمج هذه المعلومات متعددة الوسائط بشكل فعّال، نستخدم نموذج شبكة عصبونية رسومية (Graph Neural Network - GNN) لدمج الميزات متعددة الوسائط لتصنيف علامات الحركات على مستوى العقدة. أظهرت النتائج التجريبية أن نموذج Semantic2Graph يتفوق على أحدث الطرق في الأداء، خاصة على مجموعات البيانات المرجعية مثل GTEA و50Salads. كما أثبتت تجارب الاستبعاد المتعددة فعالية الميزات المعنوية في تحسين أداء النموذج. وبشكل ملحوظ، يسمح إدراج الحواف المعنوية في Semantic2Graph بالتقاط الاعتماديات طويلة المدى بكفاءة من حيث التكلفة، مما يؤكد فائدته في التغلب على التحديات الناتجة عن قيود الموارد الحسابية في نماذج الرؤية القائمة على الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Semantic2Graph: دمج الميزات متعددة الوسائط القائمة على الرسم البياني لتقسيم الإجراءات في الفيديوهات

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Semantic2Graph: دمج الميزات متعددة الوسائط القائمة على الرسم البياني لتقسيم الإجراءات في الفيديوهات

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Semantic2Graph: دمج الميزات متعددة الوسائط القائمة على الرسم البياني لتقسيم الإجراءات في الفيديوهات

Junbin Zhang Pei-Hsuan Tsai Meng-Hsun Tsai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters