HyperAIHyperAI
منذ 11 أيام

وحدة التصفية التوافقية الرسومية للتحديد الزمني للإجراءات في الفيديوهات

Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan
وحدة التصفية التوافقية الرسومية للتحديد الزمني للإجراءات في الفيديوهات
الملخص

تمت دراسة التحديد الزمني للإجراءات منذ فترة طويلة في مجال رؤية الحاسوب. تقسم الطرق الحديثة المتطورة لتحديد الإجراءات كل فيديو إلى وحدات إجرائية متعددة (أي اقتراحات في الأساليب ذات المراحل الثنائية، ومقاطع في الأساليب ذات المرحلة الواحدة)، ثم تقوم بتنفيذ التعرف على الإجراءات أو الانحدار عليها بشكل منفصل لكل وحدة، دون استغلال صريح للعلاقات بينها أثناء التعلّم. في هذه الورقة، ندّعي أن العلاقات بين وحدات الإجراء تلعب دورًا مهمًا في تحديد الإجراءات، وأن كاشف إجراءات أكثر قوة يجب أن لا يركّز فقط على المحتوى المحلي لكل وحدة إجرائية، بل يجب أن يتيح أيضًا مجالًا أوسع للسياق المرتبط بها. لتحقيق ذلك، نقترح وحدة تعميمية لشبكات الت convolution الرسومية (GCM) يمكن دمجها بسهولة في الطرق الحالية لتحديد الإجراءات، سواء كانت ذات مراحل ثنائية أو واحدة. على وجه التحديد، نقوم أولًا ببناء رسم بياني، حيث تمثل كل وحدة إجرائية عقدة، والعلاقات بين وحدتين إجرائيتين تمثل حافة. نستخدم نوعين من العلاقات: الأول لالتقاط الاتصالات الزمنية بين وحدات إجرائية مختلفة، والثاني لوصف علاقاتها الدلالية. وبالتحديد بالنسبة للاتصالات الزمنية في الأساليب ذات المراحل الثنائية، نستكشف نوعين مختلفين من الحواف: أحدهما يربط بين الوحدات المتداخلة، والآخر يربط بين الوحدات المحيطة ولكن غير المتداخلة. وبعد بناء الرسم البياني، نطبّق شبكات الت convolution الرسومية (GCNs) لتمثيل العلاقات بين وحدات الإجراء المختلفة، مما يمكن من تعلّم تمثيلات أكثر إفادة لتعزيز دقة تحديد الإجراءات. أظهرت النتائج التجريبية أن وحدة GCM تحسّن بشكل مستمر أداء الطرق الحالية لتحديد الإجراءات، سواء في الأساليب ذات المراحل الثنائية (مثل CBR و R-C3D) أو الأساليب ذات المرحلة الواحدة (مثل D-SSAD)، مما يؤكد على العامية والفعالية لـ GCM.

وحدة التصفية التوافقية الرسومية للتحديد الزمني للإجراءات في الفيديوهات | أحدث الأوراق البحثية | HyperAI