تعلم تمثيل المكان والزمان باستخدام شبكات البقايا شبه ثلاثية الأبعاد

شبكات العصبونات التلافيفية (CNN) تعتبر من النماذج القوية في مجال مسائل التعرف على الصور. ومع ذلك، فإن استخدام شبكة CNN لتعلم تمثيل الفيديو المكاني-الزماني ليس بالأمر البسيط. أظهرت بعض الدراسات أن إجراء التلافيف ثلاثية الأبعاد هو نهج مجزٍ للتقاط الأبعاد المكانية والزمانية في الفيديوهات. ومع ذلك، فإن تطوير شبكة CNN ثلاثية الأبعاد عميقة جدًا من الصفر يؤدي إلى تكلفة حسابية باهظة وطلب كبير للذاكرة. السؤال المشروع هو لماذا لا يتم إعادة استخدام شبكات 2D الجاهزة لشبكة 3D CNN؟ في هذا البحث، قمنا بتصميم عدة متغيرات من الوحدات الزجاجية في إطار التعلم المتبقي عن طريق محاكاة التلافيف $3\times3\times3$ باستخدام مرشحات تلافيفية $1\times3\times3$ في المجال المكاني (مكافئة لـ 2D CNN) بالإضافة إلى التلافيف $3\times1\times1$ لبناء الروابط الزمنية بين الخرائط الميزانية المجاورة في الزمن. علاوة على ذلك، نقترح هندسة جديدة تُسمى شبكة البقايا شبه الثلاثية الأبعاد (P3D ResNet)، والتي تستفيد من جميع متغيرات الوحدات ولكنها تتكون كل منها في مواقع مختلفة من شبكة ResNet، اتباعًا لفلسفة أن تعزيز التنوع الهيكلي مع زيادة العمق يمكن أن يحسن قوة الشبكات العصبية. حققت شبكتنا P3D ResNet تحسينات واضحة على مجموعة بيانات تصنيف الفيديو Sports-1M مقابل شبكات 3D CNN وشبكات 2D الإطارية بمعدل 5.3% و1.8% على التوالي. قمنا أيضًا بفحص أداء التعميم لتمثيل الفيديو المنتج بواسطة شبكتنا P3D ResNet المدربة مسبقًا على خمسة مقاييس مختلفة وثلاثة مهام مختلفة، مما يدل على أداء أفضل من العديد من التقنيات الرائدة.请注意,这里的“الوحدات الزجاجية”是对“bottleneck building blocks”的直译,但通常在科技文献中会直接使用“bottleneck”一词。因此,建议将其翻译为“وحدات bottleneck”以保持专业性和准确性。以下是调整后的版本:شبكات العصبونات التلافيفية (CNN) تعتبر من النماذج القوية في مجال مسائل التعرف على الصور. ومع ذلك، فإن استخدام شبكة CNN لتعلم تمثيل الفيديو المكاني-الزماني ليس بالأمر البسيط. أظهرت بعض الدراسات أن إجراء التلافيف ثلاثية الأبعاد هو نهج مجزٍ للتقاط الأبعاد المكانية والزمانية في الفيديوهات. ومع ذلك، فإن تطوير شبكة CNN ثلاثية الأبعاد عميقة جدًا من الصفر يؤدي إلى تكلفة حسابية باهظة وطلب كبير للذاكرة. السؤال المشروع هو لماذا لا يتم إعادة استخدام شبكات 2D الجاهزة لشبكة 3D CNN؟ في هذا البحث، قمنا بتصميم عدة متغيرات من وحدات bottleneck في إطار التعلم المتبقي عن طريق محاكاة التلافيف $3\times3\times3$ باستخدام مرشحات تلافيفية $1\times3\times3$ في المجال المكاني (مكافئة لـ 2D CNN) بالإضافة إلى التلافيف $3\times1\times1$ لبناء الروابط الزمنية بين الخرائط الميزانية المجاورة في الزمن. علاوة على ذلك، نقترح هندسة جديدة تُسمى شبكة البقايا شبه الثلاثية الأبعاد (Pseudo-3D Residual Net أو P3D ResNet)، والتي تستفيد من جميع متغيرات الوحدات ولكنها تتكون كل منها في مواقع مختلفة من شبكة ResNet، اتباعًا لفلسفة أن تعزيز التنوع الهيكلي مع زيادة العمق يمكن أن يحسن قوة الشبكات العصبية. حققت شبكتنا P3M ResNet تحسينات واضحة على مجموعة بيانات تصنيف الفيديو Sports-1M مقابل شبكات 3D CNN وشبكات 2D الإطارية بمعدل 5.3% و1.8% على التوالي. قمنا أيضًا بفحص أداء التعميم لتمثيل الفيديو المنتج بواسطة شبكتنا P3M ResNet المدربة مسبقًا على خمسة مقاييس مختلفة وثلاثة مهام مختلفة، مما يدل على أداء أفضل من العديد من التقنيات الرائدة.再次,请注意,为了保持一致性,“Pseudo-3D Residual Net”在阿拉伯语中可以翻译为“شبكة البقايا شبه الثلاثية الأبعاد (Pseudo-3D Residual Net أو P3D ResNet)”。最终版本如下:شبكات العصبونات التلافيفية (CNN) تعتبر من النماذج القوية في مجال مسائل التعرف على الصور. ومع ذلك، فإن استخدام شبكة CNN لتعلم تمثيل الفيديو المكاني-الزماني ليس بالأمر البسيط. أظهرت بعض الدراسات أن إجراء التلافيف ثلاثية الأبعاد هو نهج مجزٍ للتقاط الأبعاد المكانية والزمانية في الفيديوهات. ومع ذلك، فإن تطوير شبكة CNN ثلاثية الأبعاد عميقة جدًا من الصفر يؤدي إلى تكلفة حسابية باهظة وطلب كبير للذاكرة. السؤال المشروع هو لماذا لا يتم إعادة استخدام شبكات 2D الجاهزة لشبكة 3D CNN؟ في هذا البحث، قمنا بتصميم عدة متغيرات من وحدات bottleneck في إطار التعلم المتبقي عن طريق محاكاة التلافيف $3\times3\times3$ باستخدام مرشحات تлавيفة $1\times3\times3$ في المجال المكاني (مكافئة لـ 2D CNN) بالإضافة إلى التلفائف $3\times1\times1$ لبناء الروابط الزمنية بين الخرائط الميزانية المجاورة في الزمن. علاوة على ذلك، نقترح هندسة جديدة تُسمى شبكة البقايا شبه الثلاثية الأبعاد (Pseudo-3D Residual Net أو P3D ResNet)، والتي تستفيد من جميع متغيرات الوحدات ولكنها تتكون كل منها في مواقع مختلفة من شبكة ResNet، اتباعًا لفلسفة أن تعزيز التنوع الهيكلي مع زيادة العمق يمكن أن يحسن قوة الشبكات العصبية. حققت شبكتنا Pseudo-3D Residual Net (Pseudo-ResNet أو P3M ResNet) تحسينات واضحة على مجموعة بيانات تصنيف الفيديو Sports-1M مقابل شبكات 3D CNN وشبكات 2D الإطارية بمعدل 5.7% و1,8% على التوالي. كما فحصنا أداء التعاميم لتمثيل الفيديو المنتج بواسطة شبكتنا Pseudo-ResNet التي تم تدريبها بشكل سابق على خمسة مقاييس مختلفة وعلى ثلاثة مهمّات مختلفة، مما أثبت فعاليتها وأفضليتها بالمقارنة مع العديد من التقنيّات المتقدمة الحالية.希望这个版本能更好地满足您的需求。如果有任何进一步的修改或补充,请告诉我。