HyperAIHyperAI
منذ 2 أشهر

3D Dual-Fusion: الاندماج ثنائي المجال ثنائي الاستعلام بين الكاميرا وليدار للكشف عن الأشياء ثلاثية الأبعاد

Yecheol Kim; Konyul Park; Minwook Kim; Dongsuk Kum; Jun Won Choi
3D Dual-Fusion: الاندماج ثنائي المجال ثنائي الاستعلام بين الكاميرا وليدار للكشف عن الأشياء ثلاثية الأبعاد
الملخص

دمج البيانات من الكاميرات وأجهزة الاستشعار ليدار هو تقنية أساسية لتحقيق اكتشاف الأشياء ثلاثية الأبعاد بشكل قوي. أحد التحديات الرئيسية في دمج الكاميرا والليدار يكمن في تخفيف الفجوة الكبيرة بين الجهازين فيما يتعلق بالإحداثيات وتوزيع البيانات عند دمج خصائصهما. في هذا البحث، نقترح معمارية جديدة لدمج الكاميرا والليدار تُسمى "الدمج الثنائي ثلاثي الأبعاد" (3D Dual-Fusion)، وهي مصممة لتقليل الفجوة بين تمثيلات الخصائص للبيانات من الكاميرا والليدار. الطريقة المقترحة تقوم بدمج خصائص مجال رؤية الكاميرا ومجال الرؤية ثلاثية الأبعاد للمكعبات الصغيرة (voxel) ونمذجة تفاعلاتهما من خلال الانتباه القابل للتشوه (deformable attention). نعيد تصميم مُشفِّر الدمج المتранسformer لجمع المعلومات من المجالين. تتضمن التغييرات الرئيسية两点 1) الانتباه القابل للتشوه المستند إلى الاستعلامات الثنائية (dual query-based deformable attention) لدمج خصائص المجال الثنائي تفاعلًا، و2) الانتباه الذاتي المحلي ثلاثي الأبعاد (3D local self-attention) لترميز استعلامات مجال المكعبات الصغيرة قبل فك شفرة الاستعلامات الثنائية. نتائج التقييم التجريبي أظهرت أن المعمارية المقترحة لدمج الكاميرا والليدار حققت أداءً تنافسيًا على مجموعتي بيانات KITTI وnuScenes، مع تحقيق أفضل الأداء في بعض فئات مقاييس اكتشاف الأشياء ثلاثية الأبعاد.注:在阿拉伯语中,“两点”通常会翻译为“يتضمن التغييران الرئيسيان”,以保持句子的流畅性和正式性。以下是修正后的版本:دمج البيانات من الكاميرات وأجهزة الاستشعار ليدار هو تقنية أساسية لتحقيق اكتشاف الأشياء ثلاثية الأبعاد بشكل قوي. أحد التحديات الرئيسية في دمج الكاميرا والليدار يكمن في تخفيف الفجوة الكبيرة بين الجهازين فيما يتعلق بالإحداثيات وتوزيع البيانات عند دمج خصائصهما. في هذا البحث، نقترح معمارية جديدة لدمج الكاميرا والليدار تُسمى "الدمج الثنائي ثلاثي الأبعاد" (3D Dual-Fusion)، وهي مصممة لتقليل الفجوة بين تمثيلات الخصائص للبيانات من الكاميرا والليدار. الطريقة المقترحة تقوم بدمج خصائص مجال رؤية الكاميرا ومجال الرؤية ثلاثية الأبعاد للمكعبات الصغيرة (voxel) ونمذجة تفاعلاتهما من خلال الانتباه القابل للتشوه (deformable attention). نعيد تصميم مُشفِّر الدمج المترانسformer لجمع المعلومات من المجالين. يتضمن التغييران الرئيسيان 1) الانتباه القابل للتشوه المستند إلى الاستعلامات الثنائية (dual query-based deformable attention) لدمج خصائص المجال الثنائي تفاعلًا، و2) الانتباه الذاتي المحلي ثلاثي الأبعاد (3D local self-attention) لترميز استعلامات مجال المكعبات الصغيرة قبل فك شفرة الاستعلامات الثنائية. نتائج التقييم التجريبي أظهرت أن المعمارية المقترحة لدمج الكاميرا والليدار حققت أداءً تنافسيًا على مجموعتي بيانات KITTI وnuScenes، مع تحقيق أفضل الأداء في بعض فئات مقاييس اكتشاف الأشياء ثلاثية الأبعاد.

3D Dual-Fusion: الاندماج ثنائي المجال ثنائي الاستعلام بين الكاميرا وليدار للكشف عن الأشياء ثلاثية الأبعاد | أحدث الأوراق البحثية | HyperAI