HyperAIHyperAI
منذ 2 أشهر

الارتباط المكاني-الزماني وتعلم التوبولوجيا لإعادة تعريف الشخص في مقاطع الفيديو

Jiawei Liu; Zheng-Jun Zha; Wei Wu; Kecheng Zheng; Qibin Sun
الارتباط المكاني-الزماني وتعلم التوبولوجيا لإعادة تعريف الشخص في مقاطع الفيديو
الملخص

التعريف بإعادة تحديد الشخص القائم على الفيديو يهدف إلى مطابقة المشاة من سلاسل الفيديو عبر وجهات النظر غير المتداخلة للكاميرات. العامل الرئيسي في إعادة تحديد الشخص القائم على الفيديو هو استغلال الأدلة المكانية والزمانية من سلاسل الفيديو بشكل فعال. في هذا العمل، نقترح إطارًا جديدًا لتعلم الارتباط المكاني-الزماني وبنية الرسم البياني (CTL) لتحقيق تمثيل تمييزي وقوي من خلال نمذجة الارتباط المكاني-الزماني عبر المقاييس. بصفة خاصة، يستخدم الإطار CTL عمودًا أساسيًا لشبكة الشبكات العصبية التلافيفية (CNN) ومقدر نقاط رئيسية لاستخراج الخصائص المحلية الدلالية من جسم الإنسان بمستويات مختلفة كعقد في الرسم البياني. يقوم بإستكشاف بنية رسم بياني معززة بالسياق لبناء رسوم بيانية متعددة المقاييس بأخذ المعلومات السياقية العالمية والروابط الجسدية للإنسان بعين الاعتبار. بالإضافة إلى ذلك، تم تصميم ت👉 convolesion تلافيفية ثلاثية الأبعاد و convesion تلافيفية متعددة المقاييس، مما يسهل انتشار المعلومات مباشرة عبر الزمان والمكان وعبر المقاييس المختلفة لالتقاط الاعتمادات المكانية-الزمانية التراتبية والمعلومات الهيكلية. عن طريق أداء التلافيفتين معًا، يكتشف الإطار CTL بشكل فعال أدلة شاملة مكملة لمعلومات المظهر لتعزيز قدرة التمثيل. أثبتت التجارب الواسعة على مقعدين للمعايير الفيديوية فعالية الطريقة المقترحة وأدائها الذي يعتبر الأفضل حتى الآن.注:在上述翻译中,"convolesion" 和 "convesion" 是错误的拼写,正确的阿拉伯语词汇应该是 "التشويش" 或者更合适的术语 "التلافيف"(Convolution)。以下是修正后的版本:التعريف بإعادة تحديد الشخص القائم على الفيديو يهدف إلى مطابقة المشاة من سلاسل الفيديو عبر وجهات النظر غير المتداخلة للكاميرات. العامل الرئيسي في إعادة تحديد الشخص القائم على الفيديو هو استغلال الأدلة المكانية والزمانية من سلاسل الفيديو بشكل فعال. في هذا العمل، نقترح إطارًا جديدًا لتعلم الارتباط المكاني-الزماني وبنية الرسم البياني (CTL) لتحقيق تمثيل تمييزي وقوي من خلال نمذجة الارتباط المكاني-الزماني عبر المقاييس. بصفة خاصة، يستخدم الإطار CTL عمودًا أساسيًا لشبكة الشبكات العصبية التلافيفية (CNN) ومقدر نقاط رئيسية لاستخراج الخصائص المحلية الدلالية من جسم الإنسان بمستويات مختلفة كعقد في الرسم البياني. يقوم باستكشاف بنية رسم بياني معززة بالسياق لبناء رسوم بيانية متعددة المقاييس بأخذ المعلومات السياقية العالمية والروابط الجسدية للإنسان بعين الاعتبار. بالإضافة إلى ذلك، تم تصميم تلافيف ثلاثية الأبعاد وتلافيف متعددة المقاييس، مما يسهل انتشار المعلومات مباشرة عبر الزمان والمكان وعبر المقاييس المختلفة لالتقاط الاعتمادات المكانية-الزمانية التراتبية والمعلومات الهيكلية. عن طريق أداء التلافيفتين معًا، يكتشف الإطار CTL بشكل فعال أدلة شاملة مكملة لمعلومات المظهر لتعزيز قدرة التمثيل. أثبتت التجارب الواسعة على مقعدين للمعايير الفيديوية فعالية الطريقة المقترحة وأدائها الذي يعتبر الأفضل حتى الآن.希望这个版本更加准确和流畅。如果有任何进一步的修改需求,请告知。

الارتباط المكاني-الزماني وتعلم التوبولوجيا لإعادة تعريف الشخص في مقاطع الفيديو | أحدث الأوراق البحثية | HyperAI