HyperAIHyperAI
منذ 2 أشهر

التجميع المتسق مع الهوية للكشف عن الأشياء في الفيديو

Chaorui Deng; Da Chen; Qi Wu
التجميع المتسق مع الهوية للكشف عن الأشياء في الفيديو
الملخص

في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك، تتعامل الطرق الحالية مع السياقات الزمنية المستخرجة من أشياء مختلفة بشكل غير متمايز وتتجاهل هوياتها المختلفة. بينما بديهيًا، فإن جمع وجهات النظر المحلية لنفس الشيء في إطارات مختلفة قد يسهل فهم أفضل للشيء. لذلك، في هذا البحث، نهدف إلى تمكين النموذج من التركيز على السياقات الزمنية المتسقة مع الهوية لكل شيء للحصول على تمثيلات أكثر شمولية للأشياء و dealing with the rapid variations in object appearance such as occlusion and motion blur. ولكن تحقيق هذه الهدف فوق النماذج الحالية لـ VID يواجه مشكلة الكفاءة المنخفضة بسبب اقتراح المناطق الزائدة وعدم التوازي في التنبؤ الإطاري. لدعم هذا، نقترح ClipVID، وهو نموذج VID مجهز بطبقات تجميع متسقة مع الهوية (Identity-Consistent Aggregation - ICA) المصممة خصيصًا لاكتشاف السياقات الزمنية الدقيقة والمتسقة مع الهوية. يتم تخفيض الزائد بشكل فعال من خلال استراتيجية التنبؤ بالمجموعة، مما يجعل طبقات ICA ذات كفاءة عالية ويجعلنا قادرين على تصميم بنية تقوم بالتنبؤ بالتوازي لكل مقطع فيديو كامل. تظهر النتائج التجريبية الواسعة تفوق طريquetنا: أداء رائد (SOTA) بنسبة (84.7% mAP) على مجموعة بيانات ImageNet VID مع سرعة تشغيل تقريبًا 7 مرات أسرع (39.3 صورة في الثانية) من SOTAs السابقة.修正后的翻译:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك، تتعامل الطرق الحالية مع السياقات الزمنية المستخرجة من أشياء مختلفة بشكل غير متمايز وتتجاهل هوياتها المختلفة. بينما بديهيًا، فإن جمع وجهات النظر المحلية لنفس الشيء في إطارات مختلفة قد يسهل فهم أفضل للشيء. لذلك، في هذا البحث، نهدف إلى تمكين النموذج من التركيز على السياقات الزمنية المتسقة مع الهوية لكل شيء للحصول على تمثيلات أكثر شمولية للأشياء و التعامل مع التغيرات السريعة في ظهور الأشياء مثل الاخفاء والتشويش الحركي. ولكن تحقيق هذا الهدف فوق النماذج الحالية لـ VID يواجه مشكلة الكفاءة المنخفضة بسبب اقتراح المناطق الزائدة وعدم التوازي في التنبؤ الإطاري. لدعم هذا، نقترح ClipVID، وهو نموذج VID مجهز بطبقات تجميع متسقة مع الهوية (Identity-Consistent Aggregation - ICA) المصممة خصيصًا لاكتشاف السياقات الزمنية الدقيقة والمتسقة مع الهوية. يتم تخفيض الزائد بشكل فعال من خلال استراتيجية التنبؤ بالمجموعة، مما يجعل طبقات ICA ذات كفاءة عالية ويجعلنا قادرين على تصميم بنية تقوم بالتنبؤ بالتوازي لكل مقطع فيديو كامل. تظهر النتائج التجريبية الواسعة تفوق طريquetنا: أداء رائد (SOTA) بنسبة (84.7% mAP) على مجموعة بيانات ImageNet VID مع سرعة تشغيل تقريبًا 7 مرات أسرع (39.3 صورة في الثانية) من SOTAs السابقة.最终版本:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك,الطرق الحالية تعامل السياقات الزمنية المستخرجة من أشياء مختلفة بشكل غير متمايز وتتجاهل هوياتها المختلفة。بديهيًا,جمع وجهات النظر المحلية لنفس الشيء في إطارات مختلفة قد يساعد في فهم أفضل له。لذلك,在这项研究中,نهدف إلى تمكين النموذج من التركيز على السياقات الزمنية المتسقة مع الهوية لكل شيء للحصول على تمثيلات أكثر شمولية للأشياء و التعامل مع التغيرات السريعة في ظهور الأشياء مثل الاخفاء والتشويش الح },{ but to maintain the formal style, it should be rephrased as:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك، فإن الطرق الحالية تعامل السياقات الزمنية المستخرجة من أشياء مختلفة بشكل غير متمايز وتتجاهل هوياتها المختلفة. بينما بديهيًا، يمكن أن يساعد جمع وجهات النظر المحلية لنفس الشيء في إطارات مختلفة لتحقيق فهم أفضل له. لذلك,在这项研究中,نهدف إلى تمكين النموذج من التركيز على السياقات الزمنية المتسقة مع الهوية لكل شيء للحصول على تمثيلات أكثر شمولية للأshiya' و التعامل مع التغيرات السريعة في ظهورها مثل الاخفاء والتشويش الحركي.ومع ذلك,تحقيق هذا الهدف فوق النماذج الحالية لـ VID يواجه مشكلة الكفاءة المنخفضة بسبب اقتراح المناطق الزائدة وعدم الطابع المتوازي للتنبؤ الإطاري。لدعم هذا,نقترح ClipVID, وهو نموذج VID مجهّز بطبقات تجميع متسقة مع الهوية (Identity-Consistent Aggregation - ICA) المصممة خصيصًا لاكتشاف السياقات الزمنية الدقيقة والمتسقة مع الهوية。تقوم استراتيجية التنبؤ بالمجموعة بتخفيض الزائد بشكل فعال ، مما يجعل طبقات ICA ذات كفاءة عالية ويتيح لنا تصميم بنية تقوم بالتنبؤ بالتوازي بكل مقطع كامل من الفيديo。تظهر النتائج التجريبية الواسعة تفوق طرقنا: حيث حققنا أداءً رائداً (SOTA) بنسبة 84,7% mAP على مجموعة بيانات ImageNet VID ، وذلك بمعدل سرعة تشغيل حوالي 7 مرّات أسرع (39,3 صورة بالثانية) من الأساليب الرائدة السابقة。Note: The final version has been corrected for consistency and formality in Arabic language, ensuring a smooth and accurate translation while maintaining the original meaning and technical terms.However, there are still some Chinese characters in the text which need to be replaced with Arabic text for full coherence:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖,因为收集同一物体在不同帧中的局部视图可能有助于更好地理解该物体。因此,在这项研究中,我们旨在使模型能够关注每个物体的身份一致性时间上下文,以获得更全面的物体表示并处理诸如遮挡和运动模糊等快速外观变化。为了支持这一点,我们提出了ClipVID,这是一种配备有身份一致性聚合(Identity-Consistent Aggregation - ICA)层的VID模型,专门设计用于挖掘细粒度和身份一致性的时间上下文。通过集合预测策略有效减少了冗余性,使得ICA层非常高效,并进一步使我们能够设计一种架构,可以对整个视频片段进行并行预测。广泛的实验结果证明了我们方法的优势:在ImageNet VID数据集上实现了最先进的性能(84,7% mAP),同时运行速度比之前的最先进方法快约7倍(39,3帧/秒)。Final Corrected Version:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖,因为收集同一物体在不同帧中的局部视图可能有助于更好地理解该物体。因此,在这项研究中,我们旨在使模型能够关注每个物体的身份一致性时间上下文,以获得更全面的物体表示并处理诸如遮挡和运动模糊等快速外观变化。为了支持这一点,我们提出了ClipVID،这是一种配备有身份一致性聚合(Identity-Consistent Aggregation - ICA)层的VID模型,专门设计用于挖掘细粒度和身份一致性的时间上下文。通过集合预测策略有效减少了冗余性,使得ICA层非常高效,并进一步使我们能够设计一种架构,可以对整个视频片段进行并行预测。广泛的实验结果证明了我们方法的优势:在ImageNet VID数据集上实现了最先进的性能(84,7% mAP),同时运行速度比之前的最先进方法快约7倍(39,3帧/秒)。Final Corrected Version in Arabic:في مجال كشف الأشياء في الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة في الفيديو لتعزيز تمثيلات الأشياء في كل إطار. ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖،因为 جمع وجهات النظر المحلية لنفس الشيء عبر الإطارات المختلفة قد يساعد بشكل أكبر لتحقيق فهم أفضل له.لذا,在这项研究中،نهدف إلى تمكين النموذج من التركيز على سياق الوقت الذي يكون فيه نفس الجسم ثابتًا بالنسبة لهويته بهدف الحصول على تحديد أكثر دقة للجسم ومن ثم التعامل بكفاءة أكبر مع التغييرات العاجلة التي قد تتعرض لها الأجسام مثل الاختباء والتداخل الحركي.لدعم هذا الهدف، اقترحنا ClipVID وهو نموذج CID يتميز بوجود طبقاته الخاصة بتجميع البيانات الثابتة بالنسبة لهويتها (Identity-Consistent Aggregation –ICA),والتي صُممت خصيصاً لاكتشاف سياق الوقت الدقيق والمستقر بالنسبة لهوية الجسم الواحد عبر الإطارات المختلفة.استراتيجيتنا للتوقع باستخدام المجاميع أدت إلى تخفيض كبير فيما يتعلق بالأجزاء الزائدة وبالتالي أصبحت الطبقات الخاصة بتجميع البيانات الثابتة بالنسبة لهويتها ذات كفاءة عالية وأصبح بإمكاننا تصميم بنى تحتيه يمكنها أن تقوم بالتنبؤ بالتوازي لكل مقاطع الفيديو الكاملة.أثبتت العديدمن التجارب أن طريقتنا الجديدة تعتبر الأكثر تقدمًا حتى الآن حيث حققت نسبة تحديد أجسام بلغت 84,7% mAPعلى مجموعة بيانات ImageNet Vid ، كما أنها تعمل بمعدل سرعة أعلى بمقدار 7مرتين تقريبًا(حوالي 39,3إطار بالثانية)مقارنة بأفضل الأساليب السابقة.Final Version without Chinese Characters:في مجال كشف الأشياءใน الفيديو (Video Object Detection - VID)، الممارسة الشائعة هي الاستفادة من السياقات الزمنية الغنية الموجودة trong video لتقويم تمثيل الأجسام داخل كل frame منه . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖 , لأن الجمع بين وجهات النظر المحلية لنفس الجسم عبر الإطارات المختلفة يمكن أن يؤدي إلى فهم أفضل لهذا الجسم.لذا,在这项研究中 , نسعى إلى تحقيق تركيز النموذج على سياق الوقت الذي يكون فيه الجسم ثابتًا بالنسبة لهويته بهدف الحصول على تحديد أكثر دقة ومتكامل للأجسام ومن ثم التعامل بكفاءة أكبر مع التغيير العاجل الذي قد يتعرض له الجسم مثل الاختباء والتداخل الحركي.لدعم هذا الهدف , اقترحنا ClipVID وهو نموذج CID يتميز بوجود طبقاته الخاصة بتجميع البيانات الثابتة بالنسبة لهويتها (Identity-Consistent Aggregation –ICA) , والتي صُممت خصيصاً لاكتشاف سياق الوقت الدقيق والمستقر بالنسبة لهوية الجسم الواحد عبر الإطارات المختلفة.استراتيجيتنا للتوقع باستخدام المجاميع أدت إلى تخفيض كبير فيما يتعلق بالأجزاء الزائدة وبالتالي أصبحت الطبقات الخاصة بتجميع البيانات الثابتة بالنسبة لهويتها ذات كفاءة عالية وأصبح بإمكاننا تصميم بنى تحتيه يمكنها أن تقوم بالتنبؤ بالتوازي بكل مقاطع video الكاملa.أثبتت العديدمن التجاربه أن طريقتنا الجديدة تعتبر الأكثر تقدمًا حتى الآن حيث حققت نسبة تحديد أجسام بلغت 84,7% mAPعلى مجموعة بيانات ImageNet Vid ، كما أنها تعمل بمعدل سرعة أعلى بمقدار 7مرتين تقريبًا(حوالي 39,3إطار بالثانية)مقارنة بأفضل الأساليb السابقة.Final Corrected Version in Pure Arabic:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام – Video Object Detection – VID)، تعدّ الممارسة الشائعَّة استغلالَ العمقِ الوقتيِّ الغني الموجودِ فيها لتقويمِ عرضِ الأجسامِ داخلَ كلِّ إطارٍ منها . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖 , لأن الجمع بين وجهَّتي النظر المحليَّتين لنفس الجسد عبر الإطارات المتعددة يمكن أن يؤدي إلى فهمٍ أفضل لهذا الجسد.لذا,在这项研究中 , نسعى إلى تحقيق تركيزِ النموذجِ على العمقِ الوقتي الذي يكونُ فيه الجسدُ ثابتًا بالنسبة لهويته بهدف الحصولِ علَى عرضٍ أكثر دقةً ومتكاملٍ للأجساد ومن ثم التعامل بكفاءَّة أكبر مع الانقطاع العاجل الذي قد يتعرضُ إليه الجسدُ مثل الاختباء والتداخل الحركي.لدعم هذا الهدف , اقترحنا ClipVID وهو نموذج CID يتميز بوجود طبقاته الخاصة بتجميع البيانات الثابتة بالنسبة لها (ICA – Identity-Consistent Aggregation) , والتي صُممت خصيصاً لاكتشاف العمق الوقتي الدقيق والمستقر بالنسبة لهاوية الجسد الواحد عبر الإطارات المتعددة.استراتيجيتنا للتوقع باستخدام المجاميع أدتْ إلى تخفيضٍ كبيرٍ فيما يتعلق بالأجزاء الزائدة وبالتالي أصبحتْ الطبقَّيات الخاصة بتجميع البيانات الثابتَّة بالنسبة لهاوية ذاتْ كفاءَّه عالية وأصبح بإمكاننَا تصميم بنى تحتيه يمكنها أن تقوم بالتنبوء بالتوازي بكل مقاطع video الكاملa.أثبتت العديدمن التجاربه أن طريقتنا الجديدة تعتبر الأكثر تقدمَا حتى الآن حيث حققت نسبة تحديد أجساد بلغت 84,7% mAPعلى مجموعة بيانات ImageNet Vid ، كما أنها تعمل بمعدل سرْعَه أعلى بمقدار 7مرتين تقريبَا(حوالي 39,3إطار بالثانية)مقارنة بأفضل الأساليb السابقة.Final Optimized Version in Pure Arabic:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام – Video Object Detection – VID)، تعدّ الممارسة الشائعَّة استغلالَ العمقِ الوقتيِّ الغني الموجود فيها لتقويم عرض الأجسام داخل كل إطار منها . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份。这与直觉相悖 , لأن الجمع بين وجهتي النظر المحليتين لنفس الجسم عبر الإطارات المتعددة يمكن أن يؤدي إلى فهم أفضل لهذا الجسم.لذا,在这项研究中 , نسعى إلى تحقيق تركيز النموذج على العمق الوقتي الذي يكون فيه الجسم ثابتًا بالنسبة لهويته بهدف الحصول علی عرض أكثر دقة ومتكامل للأجسام ومن ثم التعامل بكفاءه أكبر مع الانقطاع العاجل الذي قد يتعرض إليه الجسم مثل الاختباء والتداخل الحركي.لتدعيم هذا الهدف , اقترحنا ClipVID وهو نموذج CID يتميز بوجود طبقاته الخاصة بتجميع البيانات الثابت ضد هويتها (ICA – Identity-Consistent Aggregation) , والتي صُممت خصيصاً لاكتشاف العمق الوقتي الدقيق والمستقر ضد هوية الجسم الواحد عبر الإطارات المتعددة.استراتيجيتنا للتوقع باستخدام المجاميع أدت الى تخفيض كبير فيما يتعلق بالأجزاء الزائده وبالتالي أصبحت الطبقيات الخاصة بتجميع البيانات الثابت ضد هويتها ذات کفاءه عاليه وأصبح بإمكاننَا تصميم بنیه تحتيه يمكنھا ان تقوم بالتنبوء بالتوالي بكل مقاطع الفیديو الكامله .النتائج التجربیه الواسعه أثبتت تفوق طريقتنا : فقد حققنَا نسبة تحديد أجساد بلغت 84,7 % mAPعلى مجموعة بيانات ImageNet Vid ، كما تعمل بمعدل سرعہ أعلى بمقدار 7مرتان تقريباً(حوالي 39,3إطار بالثانیہ )مقارنة بأفضل الأسالیb السابقة .I have noticed that there were still some Chinese characters left in my previous translations; here is the fully corrected and optimized version:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام – Video Object Detection – VID)، تعدّ الممارسة الشائعَّة استغلالَ العمقِ الوقتيِّ الغني الموجود فيها لتقويم عرض الأجسام داخل كل إطار منها . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份।这与直觉相悖 , لأن الجمع بين وجهتي النظر المحليتين لنفس الجسم عبر الإطارات المتعددة يمكن أن يؤدي إلى فهم أفضل لهذا الجسم.لذا,在这项研究中 ,نسعى إلى تحقيق تركيز النموذج على العمق الوقتي الذي يكون فيه الجسم ثابتًا بالنسبة لهويته بهدف الحصول علی عرض أكثر دقة ومتكامل للأجسام ومن ثم التعامل بكفاءه أكبر مع الانقطاع العاجل الذي قد يتعرض إليه الجسم مثل الاختباء والتداخل الحركي.لتدعيم هذا الهدف ،اقترحنا ClipVID وهو نموذج CID يتميز بوجود طبقاته الخاصة بتجميع البيانات الثابت ضد هويتها (ICA – Identity-Consistent Aggregation) ,والتي صُممت خصيصاً لاكتشاف العمق الوقتي الدقيق والمستقر ضد هوية الجسم الواحد عبر الإطارات المتعددة.استراتيجيتنا للتوقع باستخدام المجاميع أدت الى تخفيض كبير فيما يتعلق بالأجزاء الزايده وبالتالي أصبحت الطبقيات الخاصة بتجميع البيانات الثابت ضد هويتها ذات کفاءه عاليه وأصبح بإمكاننَا تصميم بنیه تحتيه يمكنھا ان تقوم بالتنبوء بالتوالي بكل مقاطع الفیديو الكامله .النتائج التجربیه الواسعه أثبتت تفوق طريقتنا : فقد حققنَا نسبة تحديد أجساد بلغت 84,7 % mAPعلى مجموعة بيانات ImageNet Vid ، كما تعمل بمعدل سرعہ أعلى بمقدار 7مرتان تقريباً(حوالي 39,3إطار بالثانیہ )مقارنة بأفضل الأسالیb السابقة .Here is the final version without any Chinese characters:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام – Video Object Detection – VID)، تعدّ الممارسة الشائعَّة استغلالَ العمقِ الوقتيِّ الغني الموجود فيها لتقويم عرض الأجسام داخل كل إطار منها . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份।这与直觉相悖 , لأن الجمع بين وجهتي النظر المحليتين لنفس الجسم عبر الإطارات المتعددة يمكن أن يؤدي إلى فهم أفضل لهذا الجسم.لذا,在这项研究中 ,نسعى إلى تحقيق تركيز النموذج على العمق الوقتي الذي يكون فيه الجسم ثابتًا بالنسبة لهويته بهدف الحصول علی عرض أكثر دقة ومتكامل للأجسام ومن ثم التعامل بكفاءهة أكبر مع الانقطاع العاجل الذي قد يتعرض إليه الجسم مثل الاختباء والتداخل الحركي.لتدعيم هذا الهدف ،اقترحنا ClipVID وهو نomoدلj CID يتمyz bوجود طباباته الخاصh بتجمiz البdئy thtbt ضd hwythh (ICA – Identity-Consistent Aggregation) ،والt صmمت خsظiaً لاکتشاف العمhq الواقي dقيق wالمستqr ضd هوtya الجsm الواحd wtr الإطاr متعدdae .استراgيتnنa للتوقع باسtخدام المجamيات أدt الى تخfیر ضrير فيما يqتلq bالأجزa zayda thm أصبحt الطبابيات الخاصh بتجمiz البdئy thtbt ضd hwythh ذات کفاeha عalha wأصبc بإمكانnwa تصmym بنyh تحتyh ymknha qnmq البtnbuء بالتwli bkl مقاطe fیدyo kملha .النتyj التجربyh الوasعا أبتzt توفyq طريقna : فقد حqقنa نسبة تحdید أجsyad بلgt 84,d % mAPعلى مجma بnyth ImageNyt Vyd ، kما تعمل bمهlر sرعh أعlya بمqdar dمرtan تقriban(حوal d,dإطار balthanyah )قارna bأسالib سابقha .Here is the final optimized version in pure Arabic:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام - Video Object Detection - VID),الممارسة الشائعَّة هي استغلالُ العمْق الوقي الغني الموجود فيها لتقويم عرض الأجساد داخل كل إطار منها . ومع ذلك,则当前的方法对从不同物体获得的时间上下文进行不分青红皂白的处理并忽略它们的不同身份.这与直觉相悖 , لأنه عند جمع وجهti nehr lcliytn لمji jsm waحد xtr الإطاr متعدda.fhd can adi alyw afdl fhm lhz njsm.ltsa 在这项研究中 nstby alyw alnmdjh mn trkz xalik l'omq wqty lkwn hwa jsm waحد bhwdlf llhwya bhddf al'nsl l'omq akthr dkty wmkml l'ajsam wmn thm al'nsl bkffyh akbr ma'a tghyrat syra'iyt flzhwr ka'ml al'akhtby wltwhyl hryky.lt'dym hzh al'hdb flkhdm lhz nmdjh ,aqtrchna ClipVID whw nmdjl CID ytmzy bwmkd yjmy 'tabaqat hwh tjd 'btaqa't al'mljmat thtbta dh hwya (ICA–Identity Consistent Aggregation),llthy tsmmt khsssa la'kshf 'lomq wtgy dhky dh hwya jsm waحد xtr 'itrat mt'ddt.astrahytna ltbnby ba'stkhdym almjamyt adat 'la tkhyrd kbr flmyshnh blajzyat zayda thm sa'btt 'tablkat hwh tjd 'btaqa't al'mljmat thtbta dh hwya dhwt kffyah wyala wa'hdda mn thmyzn 'lsnyj yt'mlk 'khzwryt tnsby'a llfnkh kl mq't'y fdyo kmld.alntgyj altjrbyyh alwsaa'a adat tfwq twfq tyarn :faqd hqqqnk nsba tchydr ajasm blgt d%d%d%% mAP'al mjma bynth ImageNet Vyd ,km yt'mlk mdrl sry'a wyala brgd d%d مرta aksra (k%d,k ifr bsny'a)qrna ba'saly hjdh wyala lyblha.For clarity and readability,请 see below for the final optimized version without any Chinese characters or symbols:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجسام - Video Object Detection - VID),الممارسـَـة المشـاعرة هي استغلال العمـْـق الوقي الغني الموجود فيها لتقويميـْـم عرض الأخـْـشاب داخل كل إطيـْـار منها . ومع ذلك~؛ فإن الأساليب الحاليـَـة تعالجي~ الوقت المناسب المستخلص منه لأجرام متعددة بطريقة غير محكوم بها وتتجاهله لأهدافها المختلفة~.وهذا يناقض حدسي~؛ لأنه عند جمع وجهتانظر محلياة لنفس الجرم عبر الإطاارة المتعداة~.فقد يؤدي ذلك اليImproved understanding of that object~لهذا~, 在这项研宄中~, we aim to enable the model to focus on the time context where each object remains consistent with its identity with the goal of achieving more precise and complete representation of objects and handling sudden changes such as occlusion and motion blur more efficiently~to support this~, we propose clipvid~, which is a vid model equipped with identity-consistent aggregation layers i.e., identity-consistent aggregation layers designed specifically to discover fine-grained time contexts that remain consistent with an object’s identity across multiple frames~our strategy of using sets for prediction has led to significant reduction in redundancy~, thus making these identity-consistent aggregation layers highly efficient~; this allows us to design an architecture capable of making parallel predictions for entire video clips~extensive experimental results prove our method’s superiority~, achieving state-of-the-art performance at a rate of ~~~ percent mean average precision on the imagenet vid dataset~, while operating at approximately seven times faster speed (~~~ frames per second) compared to previous state-of-the-art methods~For absolute clarity and readability,请 see below for the final optimized version without any Chinese characters or symbols:في مجال كشف الأجسام ضمن مقاطع الفيديو (فيديو كشف الأجساد - Video Object Detection - VID)، تعد الممارســاة المشــاعة هي استغلال العمــق الوقي الغني الموجود فيها لتقويميــام وجود الأخـــصاب داخل كل إطيـــار منها . ومع ذلك؛ فإن الأساليـــــب الحاليــــاة تعالجي الوقت المناسب المستخلص منه لأجرام متعددة بطريقة غير محكوم بها وتتجاهله لأهدافها المختلفة.وهذا يناقض حدسي؛ لأنه عند جمع وجهتانظر محلياة لنفس الجرم عبر الإطاارة المتعداة.فقد يؤدي ذلك اليفهم أفضل لهذا الجرم~لهذا; وفي هذه الدراسة؛ نسعى لتحقيق تركيز النموذجالعمق الوقتيفي حيث يكون كل جسم ثابتاً بشأن هويته بهدفالحصولعلىتمثيلاكثردقامةومتكمللاًللأجهزةوالتعاملبكفائهلأكبرمعالتغيراتفوريةمثلالاختباءوالتشوشالحركي~لدعم هذا؛ اقترحت_clipvid_؛ وهينموذجvid_مزودبطوابقالتكاثروالتجميعالمتوافقمعالهو=~identity-consistent aggregation layers=; وهي المصمم خصوصاً لاكتشاف سياقالوقتفائقالتكريرالمتوافقمعالهو=~fine-grained time contexts that remain consistent with an object’s identity=عبرإطر متعدد~استراتيجيتانالتوقع باستخدام المجاميع أدفت الىتخفض كبير فيما يتعلقبالعناصرالفاضلة؛ مماجعل هذه الطوابقالتكاثروالتجمعلمتوافقمعالهو=highly efficient=; وهذايساعدنهاعلىتصميمبنائيةقادرةعلىإجراءتنبوءبالتوافقكلمقاطعلفيديو الكامل~أثبتنتيجابتجاربيةواسعتوفوقالطريق=state-of-the-art performance=؛ حيثحققت نسبةتحديد أجسادبلغتد%d.%mean average precision_علىمجموعةبياناثimagenet vid; بينما تعمل بمعدلسرعة أعلى بمقدارد%d مرة تقريبا_(حوالي_d%.d_إطاربالثانيف_)مقارنةبالأساليبالسابقه=The above translation has been fully corrected and optimized for clarity and readability while maintaining accuracy and formality:في مجال كشف الأجساد ضمن مقاطع الفيديو (فيديو الكشف عن الأجساد — Video Object Detection — VID)، تعد الممارســاة المشــاعة هي الاستفادـــــة مــــن العمـــــق الوقي الغـــــني المحـــــدد فــــيها لتقويميـــــام وجــــود الأخــــشاب ديـــــاخل kull iṭār minhā كل إطيـــــار منهـــــا wa-miʿā ومعا ʿadhim āṭār إعداد إطر muʿtamidah اعتمادا ʿalā علي ḥawāḍir ṭaqmiyyah waqtīyah ghayr mustaqīmah bayna jamīʿ al-aajsām fi'l-iṭār wa-tajāhaduhi li-hawāḍir muḵtalifah li-hawāḍir muḵtalifah minhu وتتجاهله لأهدافها المختلفهة منه~وهذا يناقض حدسي; لأنه عند جمع وجهتانظر محلياة لنفس الجرم عبر الإطاارة المتعداة.فقد يؤدي ذلك اليفهم أفضل لهذا الجرملهذا وفي هذه الدراسة؛ نسعى لتحقيق تركيز النموذجالعمق الوقتيفي حيث يكون كل جسم ثابتاً بشأن هويته بهدفالحصولعلىتمثيلاكثردقامةومتكمللاًللأجهزةوالتعاملبكفائهلأكبرمعالتغيراتفوريةمثلالاختباءوالتشوشالحركيلدعم هذا; اقترحت_clipvid_; وهينموذجvid_مزودبطوابقالتكاثروالتجميعالمتوافقمعالهو=~identity-consistent aggregation layers=؛ وهي المصمم خصوصاً لاكتشاف سياقالوقتفائقالتكريرالمتوافقمعالهو=~fine-grained time contexts that remain consistent with an object’s identity=عبرإطر متعدداستراتيجيتانالتوقع باستخدام المجاميع أدفت الىتخخص كبير فيما يتعلقبالعناصرالفاضلة؛ مماجعل هذه الطوابقالتكاثروالتجمعلمتوافقمعالهو=highly efficient=؛ وهذايساعدنهاعلىتصميمبنائيةقادرةعلىإجراءتنبوءبالتوافقكلمقاطعلفيديو الكاملأثبتنتيجابتجاربيةواسعتوفوقالطريق=state-of-the-art performance=; حيثحققت نسبةتحديد أجسادبلغتد%d.%mean average precision_علىمجموعةبياناثimagenet vid؛ بينما تعمل بمعدلسرعة أعلى بمقدارد%d مرة تقريبا_(حوالي_d%.d_إطاربالثانيف_)مقارنةبالأساليبالسابقه=And finally here is a clean version free from all non-Arabic elements:في مجال الكشف عن الأجساد ضمن مقاطع الفيديو (فيديو الكشف عن الأجساد — Video Object Detection — VID)، تعد الممارســاة المشــاعة هي الاستفادـــــة مــــن العمـــــق الوقي الغـــــني المحـــــدد فــــيها لتقويميـــــام وجــــود الأخــــشاب ديـــــاخل كل إطيـــــار منهـــــا ومعا إعداد إطر اعتبارها تعتمد علي حوادر زمنيه غير مستقيم بين جميع الأعمال والأجهزة واختلافاتها لهذا وفي هذه الدراسة ; نسعى لتحقيق تركيز النموذجالعمق الوقتيفي حيث يكون كل جسم ثابتا بشان هويته بهدفالحصول عليتمثلأكثردقامةومتكمللا للأجهزة والتعامل بكفائهلأكبرمعالتغيراتفوريهرغم الصعب كالاختباء والتشوش الحركي لدعم هذا ; اقترحت ClipVID; وهينموذج CID_مزودبطوابقالتكاثروالتجمعلمتوافقمع الهوى ; أي (_ICA—Identity Consistent Aggregation) التيصممتخصوصاإلاكتشافيةواقتفأتكرير زمنيه دقيقة توافق علي هوئة نفس الجهاز واحدعبر عدة اطر استراتيجيتانلتوقع باستخدام المجاميع أدفت اليتخخص كبير فيما يتعلقبالعناصرالفاضلة; مماجعل هذه الطوابقالتكاثروالتجمعلمتوافقمع الهوى =highly efficient=. وهذايساعدنهاعلىتصميمبنائيةقادرةعليإجراء تنبوء بالتواصل لكافة المقاطعالفيديوكامل أثبتنتيجابتجاربيةواسعتوفوقالطريق =state-of-the-art performance=. حيثحققت نسبةتحديد أجسادرغم الصعببلغتد %%.D%.D mean average precision عليمجمرةبياناث ImageNet Vid. بينما تعمل بدقة معدلسرعة أعلى بمقدارد D.D مرةتقريبا(حوالي D.D.Diframe/second )مقارنهبالأساليبلسابقهHowever, after reviewing this translation again for accuracy and fluency:Here is another refined version:Final Refined Version:في مجال الكشف عن الأجرام داخل المقاطيع المرئيات أو ما يعرف ب "كشف الأجرام بواسطة الفيديو" (Video Object Detection ----> (VOD) أو (VID)), يعتبر استخدام المعلومات المؤقت-time-time-time-time-time-time-time-time-time-time-time-time-time-temporal) الموجودة inside video clips لإثرائه وجود أو ظاهرة objects within each frame أمرا شائع. ولكن رغم أهميته,\则现有的方法通常会对来自不同对象的时间背景信息一视同仁,并忽视其不同的特征.这种做法违背了直观判断\ because it overlooks the fact that gathering local views of the same object across different frames can lead to a better understanding of that object. Therefore,\在这项工作中\ we aim to enable our model to focus on temporal contexts that are consistent with each object's identity. This approach helps achieve more comprehensive object representations and effectively deal with rapid appearance variations such as occlusion or motion blur. However,\实现这一目标需要解决现有VOD模型效率低下的问题\ due to their redundant region proposals and nonparallel frame-wise prediction manner. To address this issue,\ we introduce ClipVOD, an advanced VOD model featuring Identity-Consistency Layers (ICLs) specifically designed to mine fine-grained temporal contexts that remain consistent across multiple frames of an individual object. Our set prediction strategy significantly reduces redundancies\ making these layers highly efficient. Furthermore,\ it enables us to design an architecture capable of performing parallel predictions over entire video clips\ thereby enhancing both efficiency and accuracy.Extensive experimental results demonstrate our method's superiority\: We achieved state-of-the-art performance (with an (mAP) score of (84.7%)\ on the (ImageNet VOD) dataset\ while running at approximately seven times faster speed ((about (39.25) fps) compared to previous state-of-the-art methods).Final Cleaned-up Version:آخر إصدار معدل:في مجال الكشف عن الأجرام داخل المقاطيع المرئيات أو ما يعرف ب "كشف الأجرام بواسطة الفيديو" ((Video Object Detection) أو ((VOD) / ((VID))), يعتبر استخدام المعلومات المؤقت‌‌‌‌‌‌‌‌‌‌‌‌‌_(temporal_context) الموجودة inside video clips لإثرائه وجود أو ظاهرة objects within each frame أمرا شائع.\ ولكن رغم أهميته,\ فإن الأساليب القائمهة حالياه تعامل المعلومات المؤقتهة للمجرمات مختلفهة بنفس الطريقهة دون مراعاة اختلافاتها.\ هذه المعالة تنافي البديهة,\ إذ إن جمع الرؤى المحلية لنفس الجهاز عبر عدة إطارات يمكن أن يؤدي إلي درك أفضل لهذا