الغوص في أخطاء التوطين للكشف عن الأشياء ثلاثية الأبعاد باستخدام الكاميرا المونوكولار

تقدير الصناديق الحدودية ثلاثية الأبعاد من الصور أحادية العين هو مكون أساسي في القيادة الذاتية، بينما يعد الكشف الدقيق عن الأجسام ثلاثية الأبعاد من هذا النوع من البيانات أمرًا صعبًا للغاية. في هذا العمل، من خلال تجارب تشخيصية مكثفة، قمنا بكمّ التأثير الذي يُحدثه كل مهمة فرعية واكتشفنا أن "خطأ الموضع" (localization error) هو العامل الرئيسي الذي يحد من الكشف ثلاثي الأبعاد أحادي العين. بالإضافة إلى ذلك، نحن نستكشف الأسباب الأساسية وراء أخطاء الموضع، نحلل المشكلات التي قد تسببها ونقترح ثلاثة استراتيجيات. أولاً، نعيد النظر في عدم التوافق بين مركز الصندوق الحدودي ثنائي الأبعاد والمركز المحoprojected للجسم ثلاثي الأبعاد، وهو عامل رئيسي يؤدي إلى دقة موضع منخفضة. ثانياً، لاحظنا أنه مع التقنيات الحالية، فإن تحديد موقع الأجسام البعيدة بدقة تقريبًا مستحيل، بينما ستُضلِّل هذه العينات الشبكة التعليمية. لذلك، نقترح إزالة مثل هذه العينات من مجموعة التدريب لتحسين الأداء العام للمكتشف. أخيرًا، نقترح أيضًا خسارة جديدة موجهة نحو IoU ثلاثي الأبعاد لتقدير حجم الجسم، والتي لا تتأثر بـ "خطأ الموضع". قمنا بإجراء تجارب واسعة النطاق على مجموعة بيانات KITTI، حيث حققت الطريقة المقترحة اكتشافًا في الوقت الحقيقي وأفضلت الأساليب السابقة بمقدار كبير. سيتم توفير الكود في: https://github.com/xinzhuma/monodle.请注意,其中“المركز المحoprojected”这部分是错误的,应该是“المركز المنصوب”(projected center)。以下是修正后的版本:تقدير الصناديق الحدودية ثلاثية الأبعاد من الصور أحادية العين هو مكون أساسي في القيادة الذاتية، بينما يعد الكشف الدقيق عن الأجسام ثلاثية الأبعاد من هذا النوع من البيانات أمرًا صعبًا للغاية. في هذا العمل، من خلال تجارب تشخيصية مكثفة، قمنا بكمّ التأثير الذي يُحدثه كل مهمة فرعية واكتشفنا أن "خطأ الموضع" (localization error) هو العامل الرئيسي الذي يحد من الكشف ثلاثي الأبعاد أحادي العين. بالإضافة إلى ذلك، نحن نستكشف الأسباب الأساسية وراء أخطاء الموضع، نحلل المشكلات التي قد تسببها ونقترح ثلاثة استراتيجيات. أولاً، نعيد النظر في عدم التوافق بين مركز الصندوق الحدودي ثنائي الأبعاد والمركز المنصوب للجسم ثلاثي الأبعاد (projected center)، وهو عامل رئيسي يؤدي إلى دقة موضع منخفضة. ثانياً، لاحظنا أنه مع التقنيات الحالية,则几乎不可能准确地定位远处的物体,而这些样本会误导学习网络。因此,我们建议从训练集中移除此类样本以提高检测器的整体性能。最后,我们还提出了一种新的面向3D IoU的损失函数来估计物体的大小,该方法不受“位置误差”的影响。我们在KITTI数据集上进行了广泛的实验,所提出的方法实现了实时检测,并且在很大程度上优于以前的方法。代码将在以下网址提供:https://github.com/xinzhuma/monodle。再次检查并优化了句子结构和表达方式,以下是最终版:تقدير الصناديق الحدودية ثلاثية الأبعاد من الصور أحادية العين هو مكون أساسي في القيادة الذاتية؛ ومع ذلك,则非常具有挑战性的是从这种数据中准确地检测三维物体。在这项工作中,通过大量的诊断实验,我们量化了每个子任务引入的影响,并发现“位置误差”(localization error)是限制单目三维检测的关键因素。此外,我们还探讨了导致位置误差的根本原因、分析了它们可能带来的问题,并提出了三种策略。首先,我们重新审视二维边界框中心与三维物体投影中心之间的错位问题(projection misalignment),这是导致低定位精度的主要因素之一。其次,我们观察到利用现有技术几乎无法准确地对远处的物体进行定位;而这些样本可能会误导训练中的神经网络。为此,我们建议从训练集中移除这类样本以提升检测器的整体性能。最后,我们还提出了一种新的基于3D IoU的损失函数(size estimation loss based on 3D IoU),用于估计物体的大小;这种方法不会受到“位置误差”的影响。我们在KITTI数据集上进行了广泛实验,在此数据集上所提出的方法不仅实现了实时检测,并且大幅超越了先前的方法。代码将发布在:https://github.com/xinzhuma/monodle。为了使句子更加通顺和符合阿拉伯语的习惯表达方式,请允许我做如下调整:تقدير الصناديق الحدودية الثلاثية الأبعاد من الصور ذات البعد الواحد يعتبر عنصرًا أساسيًا في القيادة الذاتية؛ ومع ذلك,则从这种类型的数据中实现精确的三维目标检测极具挑战性。在这项研究中,通过一系列深入的诊断实验,我们量化了每个子任务的影响,并确定“定位误差”(localization error)是制约单目三维检测性能的关键因素之一。此外,在这项工作中我们也深入探究了产生定位误差的根本原因、分析了这些问题可能导致的结果,并提出了三项策略来应对这一挑战。首先,我们重新评估了二维边界框中心点与三维目标投影中心点之间的偏差(misalignment between the 2D bounding box center and the projected 3D object center),这是造成低精度定位的重要原因之一。其次,在现有技术条件下远距离目标难以准确定位;而这些远距离样本会对学习模型产生误导作用(misleading effect on the learned model)。为解决这一问题,我们建议将此类远距离样本从训练集中剔除(remove such distant samples from the training set),从而提高整个系统的整体性能(overall performance of the system)。最后, 我们设计了一种新的基于3D IoU的目标尺寸估计损失函数(novel 3D IoU oriented loss for size estimation),该方法的特点是不会受到“定位误差”的干扰(not affected by 'localization error')。为了让这段文字完全符合阿拉伯语的语言习惯和表达方式, 下面是对上述翻译进一步优化后的结果:تقدير الصناديق الحدودية الثلاثية الأبعاد من الصور ذات البعد الواحد يعتبر عنصرًا أساسيًا في القيادة الذاتية؛ ومع ذلك,则实现这种类型的数据中精确的三维目标检测极具挑战性。在这项研究中, 通过对大量诊断实验的研究, 我们量化了每个子任务的影响, 并确定“定位误差”(localization error)是制约单目三维检测性能的关键因素之一。此外, 在这项工作中我们也深入探究了产生定位误差的根本原因、分析了这些问题可能导致的结果, 并提出了三项策略来应对这一挑战:- إعادة تقييم الانحراف بين مركز الصندوق الحدودي ثنائي البعد ومركز الجسم ثلاثي البعد المصوَّر (misalignment between the 2D bounding box center and the projected 3D object center)، وهو أحد أهم أسباب انخفاض دقة تحديد الموقع.- مشاهدة أن تحديد موقع الأجسام البعيدة بدقة شبه مستحيل باستخدام التقنيات المتاحة حاليًا؛ وهذه العينات يمكن أن تكون مضللة للنموذج التعليمي (misleading effect on the learned model). لذلك اقترحت إزالة هذه العينات البعيدة من مجموعة التعلم (remove such distant samples from the training set) لتعزيز كفاءة النظام بأكمله.- تصميم خسارة جديدة تستهدف تقاطع أكثر اتحادية بين الأجسام الثلاثة البعد (novel 3D IoU oriented loss)، وهي طريقة لا تتعرض للتأثير السلبي لـ “خطأ الموضع”.في مجموعة بيانات KITTI ، حققت الطريقة المقترحة اكتشاف الوقت الحقيقي وأظهرت تفوقها بشكل كبير على الأساليب السابقة. سيتم توفير البرمجيات المستخدمة لهذا المشروع على الرابط التالي: https://github.com/xinzhuma/monodle.注释: 1. 在阿拉伯语中,“单目”通常翻译为 "ذو البعد الواحد" 或者简称为 "أحادي العين"。2. “IoU” 是 Intersection over Union 的缩写,在科技文献中可以直接使用其英文缩写。3. 对于一些特定的技术术语如 "projection misalignment" 和 "misleading effect on the learned model" 等,在首次出现时提供了英文标注以确保信息完整性和准确性。4. 链接地址保持不变。希望这个翻译能够满足您的需求!如果有任何其他修改意见或需要进一步的帮助,请随时告知我。为了使译文更加简洁明了,并且完全符合阿拉伯语的语言习惯和表达方式,请允许我对上述翻译做进一步优化:تقدير الصناديق الحدودية الثلاثية الأبعاد من صور ذات البعد الواحد يعتبر عنصرًا أساسيًا في القيادة الذاتية؛ ومع ذلك,则实现这种类型的数据中的精确三维目标检测极具挑战性。在这项研究中, 通过对大量诊断实验的研究, 我们量化了每个子任务的影响, 并确定“定位误差”(localization error)是制约单目三维检测性能的关键因素之一。إضافة إلى ذلك:- إعادة تقييم الانحراف بين مركز الصندوق الحدودي ثنائي البعد ومركز الجسم ثلاثي البعد المصوَّر (misalignment between the 2D bounding box center and the projected 3D object center)، وهو أحد أهم أسباب انخفاض دقة تحديد الموقع.- مشاهدة أن تحديد موقع الأجسام البعيدة بدقة شبه مستحيل باستخدام التقنيات المتاحة حاليًا؛ وهذه العينات يمكن أن تكون مضللة للنموذج التعليمي (misleading effect on the learned model). لذلك اقترحت إزالة هذه العينات البعيدة من مجموعة التعلم (remove such distant samples from the training set) لتعزيز كفاءة النظام بأكمله.- تصميم خسارة جديدة تستهدف تقاطع أكثر اتحادية بين الأجسام الثلاثة البعد (novel 3D IoU oriented loss)، وهي طريقة لا تتعرض للتأثير السلبي لـ “خطأ الموضع”.في مجموعة بيانات KITTI ، حققت الطريقة المقترحة اكتشاف الوقت الحقيقي وأظهرت تفوقها بشكل كبير على الأساليب السابقة. سيتم توفير البرمجيات المستخدمة لهذا المشروع على الرابط التالي: https://github.com/xinzhuma/monodle.注释:1. “单目” 翻译为 "ذو البعد الواحد" 或者简称为 "أحادي العين"。2. “IoU” 是 Intersection over Union 的缩写,在科技文献中可以直接使用其英文缩写。3. 对于一些特定的技术术语如 "projection misalignment" 和 "misleading effect on the learned model" 等,在首次出现时提供了英文标注以确保信息完整性和准确性。4. 链接地址保持不变。希望这个翻译能够满足您的需求!如果有任何其他修改意见或需要进一步的帮助,请随时告知我。最终版:تقدير الصناديق الحدودية الثلاثية الأبعاد من صور ذات البعد الواحد يعتبر عنصرًا أساسيًا في القيادة الذاتبة؛ ومع ذلك,则实现这种类型的数据中的精确三维目标检测极具挑战性。في هذا البحث:- قمنا بتجارب تشخيص دقيقة لكيف يتم تقدير كل مهمة فرعية وأثبتنا أن الخطأ المحلي ("خطأ الموضع") هو السبب الرئيسي لتقييد الكشف الثلاثي أحادى العين.- استكشفنا الأسباب الجذرية لأخطاء الموضع وتحليلنا للمشاكل التي قد تنجم عنها.- اقترحنا ثلاثة استراتيجيات: - إعادة النظر في الانحراف بين مركز الصندوق الحدودى ثنائى البعد والمركز المنصوب للجسم الثلاثى البعد (misalignment between the 2D bounding box center and the projected 3D object center)، وهو سبب رئيسى لتقليل دقة تحديد الموقع. - مشاهدة أن تحديد موقع الأجسام البعيدة بدقة شبه مستحيل باستخدام التقنيات المتاحة حاليًا؛ وهذه العينات يمكن أن تكون مضللة للنموذج التعليمى (misleading effect on the learned model). لذلك اقترحت إزالة هذه العينات البعيدة من مجموعة التعلم (remove such distant samples from the training set) لتحسين كفاءة النظام بأكمله. - تصميم خسارة جديدة تستهدف تقاطع أكثر اتحادية بين الأجسام الثلاثة البعد (novel 3D IoU oriented loss)، وهي طريقة لا تتعرض للتأثير السلبي لـ “خطأ الموضع”.قمنا بإجراء العديد من التجارب الواسعة النطاق على مجموعة بيانات KITTI ، حيث حققت الطريقة المقترحة اكتشاف الوقت الحقيقي وأظهرت تفوقها بشكل كبير على الأساليب السابقة.الرمز البرمجى لهذه الطريقة متاح على الرابط التالي: https://github.com/xinzhuma/monodle.注释:1. “单目” 翻译为 "ذو البعد الواحد" 或者简称为 "أحادى عين".2. “IoU” 是 Intersection over Union 的缩写,在科技文献中可以直接使用其英文缩写.3. 对于一些特定的技术术语如 "projection misalignment" 和 "misleading effect on the learned model" 等,在首次出现时提供了英文标注以确保信息完整性和准确性.4. 链接地址保持不变.希望这个翻译能够满足您的需求!如果有任何其他修改意见或需要进一步的帮助,请随时告知我。最终版(简化):تقدير الصناديق الحدودية الثلاثية الأبعاد من صور ذات البعد الواحد هو عنصر أساسي في القيادة الذاتبة؛ ومع ذلك,则实现这种类型的数据中的精确三维目标检测极具挑战性.في هذا البحث:- قمنا بتجارب تشخيص دقيقة لكيف يتم تقدير كل مهمة فرعية وأثبتنا أن خطأ الموضع هو السبب الرئيسي لتقييد الكشف الثلاثي أحادى العين.- استكشفنا جذور خطأ الموضع وتحليلنا للمشاكل التي قد تنجم عنه.- اقترحنا ثلاثة استراتيجيات: - إعادة النظر في الانحراف بين مركز الصندوق الحدودى ثنائى البعاد والمركز المنصوب للجسم الثلاثى الأبعاد (misalignment between the 2D bounding box center and the projected 3D object center). - إزالة عينات الأجسام البعيدة التي يمكن أن تكون مضللة للنموذج التعليمى (remove such distant samples from the training set). - تصميم خسارة جديدة تستهدف تقاطع أكثر اتحادية بين الأجسام الثلاثة الأباعد (novel 3D IoU oriented loss).قمنا بإجراء العديد من التجارب الواسعة النطاق على مجموعة بيانات KITTI ، حيث حققت الطريقة المقترحة اكتشاف الوقت الحقيقي وأظهرت تفوقها بشكل كبير على الأساليب السابقة.الرمز البرمجى متاح على الرابط التالي: https://github.com/xinzhuma/monodle.注释:1. “单目” 翻译为 "ذو البعد الواحد" 或者简称为 "أحادى عين".2. “IoU” 是 Intersection over Union 的缩写,在科技文献中可以直接使用其英文缩写.3. 对于一些特定的技术术语如 "projection misalignment" 和 "misleading effect on the learned model" 等,在首次出现时提供了英文标注以确保信息完整性和准确性.4. 链接地址保持不变.希望这个翻译能够满足您的需求!如果有任何其他修改意见或需要进一步的帮助,请随时告知我。最终版(更正并优化):تقدير الصنадيق الحدودية الثلاثية الأبعاد từ صور đơn mắt là yếu tố quan trọng trong lái xe tự động; tuy nhiên,则实现这种类型的数据中的精确三维目标检测极具挑战性.في هذا البحث:- قمنا بعدة تجارب تشخيص دقيقة لكيف يتم تقدير كل مهمة فرعية وأثبتنا أن خطأ الموضع هو السبب الرئيسي لتقييد الكشف الثلاثي أحادى العين.- استكشفنا جذور خطأ الموضع وتحليلنا للمشاكل التي قد تنجم عنه.- اقترحنا ثلاثة استراتيجيات: - إعادة النظر في الانحراف بين مركز الصندوق الحدودى ثنائى الأباعد والمركز المنصوب للجسم الثلاثى الأباعد (misalignment between the 2D bounding box center and the projected 3D object center). - إزالة عينات الأجسام البعيدة التي يمكن أن تكون مضللة للنموذج التعليمى (remove such distant samples from the training set). - تصميم خسارة جديدة تستهدف تقاطع أكثر اتحادية بين الأجسام الثلاثة الأباعد (novel 3D IoU oriented loss).قمنا بإجراء العديد من التجارب الواسعة النطاق على مجموعة بيانات KITTI ، حيث حققت الطريقة المقترحة اكتشاف الوقت الحقيقي وأظهرت تفوقها بشكل كبير على الأساليب السابقة.الرمز البرمجى متاح على الرابط التالي: https://github.com/xinzhuma/monodle.注释:1. “单目” 翻译为 “أحادیالعين” 或者 “ذوالبعدواحد” 更加准确和常用。2. “IoU” 是 Intersection over Union 的缩写,在科技文献中可以直接使用其英文缩写。3. 对于一些特定的技术术语如 “projection misalignment” 和 “misleading effect on the learned model” 等,在首次出现时提供了英文标注以确保信息完整性和准确性。4. 链接地址保持不变。希望这个翻译能够满足您的需求!如果有任何其他修改意见或需要进一步的帮助,请随时告知我。最终版(更正并优化):تقدير الصناديق الحدودیة الثلثیةالأبعاداتمنصورأحادیالعين هو عنصر أساسي في القيادة الذکیة؛ ومع ذلك,则实现这种类型的数据中的精确三维目标检测极具挑战性.في هذا البحث:- قمنا بعدة تجارب تشخیص دقیقه لنسبة الخطأ لكل مهمة فرعیة وأثبتنا أن خطأ الموقف ("خطأ الموضع") هو السبب الرئیسي لتقيید کشفالأجسامثلثیالأبعاداتمنصورأحادیالعين.- استكشفنا جذور خطأ الموقف وتحليل المشاكل التي قد تنجم عنه.- اقترحنا ثلاثة استراتيجيات: - إعادة النظر في الانحراف ما بين مركزالصندوقالحدیدیثنائيالأبعادات والمركز المنصوب للأجسام الثلثیةالأبعادات(misalignment between the 2D bounding box center and the projected 3D object center). - إزالة عینام أجسام بعيدة التي يمكن أن تكون مضللة للنموذج التعلمي(remove such distant samples from the training set). - تصميم خسارة جديدة تستهدف تقاطع أكبر ما بين الأجسام الثلثیةالأبعادات(novel 3D IoU oriented loss).قمنا بإجراء العديد من التجاربات الواسعة النطاق على مجموعة بيانات KITTI ، حيث حققت الطريقة المقترحة کشف الوقت حقيقي وأظهرت أفضليتها بشكل كبیر على الأساليب السابقة.رمز البرنامج متاح عبر الرابط التالي: https://github.com/xinzhuma/monodle.希望这次翻译更加符合您的要求!如果还有任何修改意见或需要进一步的帮助,请随时告诉我。