قام فريق من معهد ماساتشوستس للتكنولوجيا بتحسين أنظمة الرؤية اللاسلكية باستخدام الذكاء الاصطناعي التوليدي لإعادة بناء الأجسام المحجوبة بالكامل بدقة عالية، محققًا ذروة دقة تبلغ 851 TP3T.

منذ 3 أشهر

في مجالي رؤية الحاسوب والاستشعار الذكي، لطالما شكلت إعادة بناء الأجسام المحجوبة تمامًا تحديًا بحثيًا كبيرًا. تخيلوا رزمًا مكدسة في مستودع لوجستي، أو معدات معقدة على خط إنتاج، أو تطبيقات في الواقع المعزز تتطلب تحديد الأجسام المخفية؛ غالبًا ما تكون أجهزة الاستشعار البصرية التقليدية، مثل الكاميرات أو تقنية الليدار، غير فعالة. فهي تعتمد على انعكاس الضوء المرئي أو أشعة الليزر، ولكن هذه الإشارات تُحجب عند اصطدامها بالعوائق، مما يجعل الأجسام غير قابلة للملاحظة.

في السنوات الأخيرة، وفر ظهور تقنية الموجات المليمترية (mmWave) حلاً جديداً لهذه المشكلة.يمكن لإشارات الموجات المليمترية اختراق العوائق الشائعة مثل صناديق الكرتون والأقمشة، مع كونها آمنة ولطيفة على جسم الإنسان.وهذا يمنحها إمكانات هائلة في مجالات مثل الصناعة والخدمات اللوجستية والروبوتات والواقع المعزز. ومع ذلك،تتميز إشارات الموجات المليمترية بخصائص انعكاس مرآوي، وضوضاء عالية، ودقة مكانية منخفضة، مما يجعل من الصعب استخدامها مباشرة لإعادة بناء ثلاثية الأبعاد كاملة.للتغلب على هذه المشكلة، يتمثل أحد الأساليب في تطبيق نماذج إكمال الشكل القائمة على الرؤية الحاسوبية على إعادة بناء الموجات المليمترية. ومع ذلك، غالبًا ما تفشل هذه الاستراتيجية في إنتاج نتائج إعادة بناء موثوقة لأن هذه النماذج صُممت في الأصل لأجهزة استشعار الضوء المرئي عالية التغطية وعالية الدقة، ولا تأخذ في الاعتبار الخصائص الفيزيائية الفريدة لانعكاس الموجات المليمترية.

استجابةً لهذه المشكلة،اقترح باحثون من معهد ماساتشوستس للتكنولوجيا طريقة جديدة تسمى Wave-Former، والتي تسد الفجوة بين الاستشعار اللاسلكي وتقنيات إكمال الشكل الحديثة من خلال تضمين الخصائص الفيزيائية للموجات المليمترية في عملية التعلم، مما يتيح إعادة بناء الشكل ثلاثي الأبعاد عالي الدقة للأشياء اليومية المتنوعة المحجوبة تمامًا.لا تقتصر هذه الطريقة على حل مشكلات التشويش العالي للإشارة والحجب الشديد فحسب، بل تحقق أيضًا إعادة بناء عالية الدقة في بيئات العالم الحقيقي بالاعتماد على تدريب البيانات الاصطناعية من خلال إطار تدريب مبتكر للإدراك الفيزيائي. وبالمقارنة المباشرة مع أحدث الطرق الأساسية، يُحسّن Wave-Former معدل الاستدعاء من 541 TP3T إلى 721 TP3T مع الحفاظ على دقة عالية تبلغ 851 TP3T.

تم نشر نتائج البحث ذات الصلة، بعنوان "Wave-Former: Through-Occlusion 3D Restruction via Wireless Shape Completion"، كنسخة أولية على arXiv.

أبرز الأبحاث:

* تقترح هذه الورقة لأول مرة إطار عمل لإكمال الشكل ثلاثي الأبعاد باستخدام الموجات المليمترية للأجسام المتنوعة، مما يتيح تدريب النموذج بالكامل على البيانات الاصطناعية مع تحقيق إعادة بناء ثلاثية الأبعاد على البيانات الحقيقية في نفس الوقت.

* تعمل هذه الطريقة على تحسين معدل الاستدعاء من 54% إلى 72% على مجموعة بيانات MITO الحقيقية، متجاوزة طرق إعادة بناء الموجات المليمترية الحالية.

* عند تطبيقه على السحب النقطية الجزئية ذات الموجات المليمترية، فإنه يتجاوز نموذج الإكمال البصري الأصلي، مما يحسن الاستدعاء بمقدار 121 TP3T ويحقق دقة قصوى تبلغ 851 TP3T.

عنوان الورقة:
https://arxiv.org/abs/2511.14152
تابع حسابنا الرسمي على WeChat وأجب بكلمة "موجة مليمترية" في الخلفية للحصول على ملف PDF كامل.

توفر مجموعة بيانات الكائنات ثلاثية الأبعاد عينة غنية.

استخدم فريق البحث ثلاث مجموعات بيانات متاحة للجمهور لأجسام ثلاثية الأبعاد لتدريب نموذج Wave-Former والتحقق من صحته.

* OmniObject3D:يحتوي على كمية كبيرة من بيانات السحابة النقطية المتنوعة للأشياء اليومية، والتي تغطي فئات مثل الأثاث والأدوات والألعاب.

* ألعاب ثلاثية الأبعاد بدقة 4K:من خلال التركيز على الألعاب والأشياء الصغيرة، فإنه يثري تنوع الأشكال وخصائص المواد.

* مجموعة فرعية من Objaverse وThingiverse:يوفر منصة مفتوحة المصدر لإنشاء نماذج ثلاثية الأبعاد لتوليد بيانات تدريب اصطناعية.

تحتوي مجموعات البيانات الثلاث هذه على ما يزيد عن 25000 سحابة نقاط ثلاثية الأبعاد.يوفر مجموعة غنية من عينات التدريب لبرنامج Wave-Former.

في التقييم الواقعي، استخدم فريق البحث مجموعة بيانات MITO، التي تحتوي على 61 عنصرًا من مجموعة بيانات YCB.تغطي هذه الأشياء مجموعة متنوعة من سيناريوهات المهام، بما في ذلك أدوات المطبخ، والأدوات اليدوية، والطعام، والألعاب. وهي مصنوعة من مواد مثل الخشب، والمعدن، والكرتون، والبلاستيك، وتأتي بأشكال معقدة ومتنوعة.يشمل ذلك الحواف الحادة والأسطح المستوية والأسطح المنحنية. أُجريت قياسات الموجات المليمترية على كل جسم في ظروف خط الرؤية وظروف الحجب الكامل، مما وفر اختبارًا شاملاً لقدرة النموذج على التعميم.
ملاحظة: مجموعة بيانات YCB، وهي اختصار لمجموعة YCB Object and Model Set، هي مجموعة بيانات قياسية كلاسيكية ومستخدمة على نطاق واسع في مجالات الروبوتات ورؤية الكمبيوتر.

تجدر الإشارة إلى أن تدريب نموذج Wave-Former يعتمد كلياً على البيانات الاصطناعية. فمن خلال إطار التدريب القائم على الإدراك الفيزيائي، يستطيع النموذج تعلم خصائص إشارات الموجات المليمترية، مما يُحسّن أداءه في القياسات الواقعية ويتجنب صعوبات التدريب الناجمة عن ندرة بيانات الموجات المليمترية الفعلية.

مُشكِّل الموجة: يتم تدريبه على بيانات اصطناعية، ويحقق إعادة بناء ثلاثية الأبعاد على بيانات حقيقية.

يتكون التصميم الأساسي لـ Wave-Former من جزأين: عملية تدريب على الإدراك المادي وعملية استدلال في العالم الحقيقي.يُراعي هذا التصميم خصائص إشارات الموجات المليمترية بشكل كامل: الانعكاس المرآوي، والتشويش العالي، والدقة المكانية المنخفضة، وعدم انتظام الرؤية. يوضح الشكل أدناه العملية برمتها.

مسار تدريبي مدرك للفيزياء

تتضمن عملية التدريب الواعية بالفيزياء في Wave-Former الخصائص الفيزيائية في التدريب من خلال التحيز الاستقرائي لإدراك انعكاس المرآة، وأنماط الرؤية المعتمدة على الانعكاس، وإطار عمل مشترك للتحسين والإكمال، مما يتيح تدريب النموذج بالكامل على البيانات الاصطناعية.

أولها التحيز الاستقرائي لإدراك الانعكاس المرآوي.تعتمد نماذج الإكمال الحالية القائمة على الرؤية بشكل أساسي على تحيز استقرائي يتوافق مع الضوء المرئي، إلا أن هذا التحيز لا يتوافق مع إشارات الموجات المليمترية لأن ملاحظاتها الجزئية "الشبه كاميرا" تفترض انعكاسًا منتشرًا وتغطية واسعة. ولمعالجة هذه المشكلة، أعاد الباحثون تعريف التحيز الاستقرائي من خلال ملاحظات جزئية متسقة فيزيائيًا لمحاكاة الانعكاس المرآوي لإشارات الموجات المليمترية.

أما الأمر الثاني فهو الرؤية التي تعتمد على الانعكاس.على عكس أجهزة الاستشعار البصرية، تُظهر رؤية الموجات المليمترية تباينًا قويًا، ما يعني أن الانعكاس القابل للقياس يعتمد على زاوية السقوط وشدة الانعكاس من الجسم. لذلك، حتى جسمان لهما نفس الشكل الهندسي قد يكون لهما رؤية مختلفة بشكل ملحوظ بسبب خصائص المواد.

لنمذجة هذا السلوك،قدم الباحثون نمط رؤية يعتمد على الانعكاس.تُحدد نقاط سطح التوهين من خلال التوجيه الفيزيائي والقيود المادية. وهذا يحل محل افتراض التغطية المتساوية الشائع، مما يُمكّن الشبكة من فهم أن رؤية الموجات المليمترية غير منتظمة بطبيعتها وتعتمد على الزاوية.

أما الثالث فهو الجمع بين تقليل الضوضاء وإتمام العمل.صُممت نماذج إكمال الأشكال الحالية القائمة على الرؤية الحاسوبية لتناسب خصائص الضوضاء والدقة النموذجية للكاميرات أو مستشعرات الليدار، وبالتالي تفترض إمكانية دمج سحابة النقاط الجزئية المدخلة مباشرةً مع النقاط المُعاد بناؤها. مع ذلك، تتميز إشارات الموجات المليمترية بضوضاء أعلى بكثير ودقة أقل، لذا فإن استراتيجيات الدمج الحالية تُسبب قدراً كبيراً من التشوه في نتيجة إعادة البناء النهائية.

لحل هذه المشكلة،اقترح الباحثون طريقة مشتركة للتحسين والإنجاز.يتم إدخال الضوضاء أثناء التدريب لمحاكاة خصائص إشارات الموجات المليمترية الحقيقية، ثم يتم إعادة تعريف دالة الخسارة بحيث يمكن للنموذج إخراج شكل ثلاثي الأبعاد كامل (بدون دمج المدخلات)، وبالتالي إعادة تفسير النقاط غير الموثوقة بدلاً من مجرد الاحتفاظ بها.

يعتمد إطار التدريب بأكمله على بنية المشفر-المفكك Transformer (PoinTr backbone)، بالإضافة إلى نموذج مراقبة متسق فيزيائيًا وهدف إزالة الضوضاء والإكمال.وهذا يُمكّن النموذج من التدريب على بيانات اصطناعية بالكامل وتحقيق إعادة بناء عالية الدقة لإشارات الموجات المليمترية الحقيقية.

عملية الاستدلال في العالم الحقيقي

تستخدم عملية الاستدلال الواقعية لبرنامج Wave-Former مسارًا ثلاثي المراحل لإعادة بناء كائنات ثلاثية الأبعاد كاملة من إشارات الموجات المليمترية الحقيقية.

توليد المرشحين السطحيين للموجات المليمترية (المرحلة الأولى)

في البداية، حوّل الباحثون قياسات الموجات المليمترية الخام إلى مجموعة من الأسطح الجزئية المحتملة، ما مكّنهم من التقاط المعلومات الهندسية الموجودة في الانعكاسات بدقة. عادةً، يعتمد تقدير سحابة النقاط الجزئية للموجات المليمترية على تحديد عتبة لصورة القدرة ثلاثية الأبعاد للموجات المليمترية؛ إلا أن هذه الطريقة تُنتج عددًا كبيرًا من النقاط الخاطئة. لذا، استغلّ الباحثون التطورات الحديثة في تصوير الموجات المليمترية لتحويل الانعكاسات الخام إلى فضاء سطح جزئي متسق هندسيًا.

إكمال شكل الإدراك الجسدي (المرحلة الثانية)

يتم تطبيق النموذج المدرب على كل سطح مرشح لإنشاء مجموعة من عمليات إعادة البناء الكاملة المتسقة فيزيائيًا.

اختيار السطح باستخدام استشعار الإنتروبيا (المرحلة 3)

في حالات الضوضاء العالية أو الانعكاس الضعيف، يتم قياس استمرارية وسطحية سحابة النقاط بواسطة الإنتروبيا المحلية، ويتم اختيار إعادة البناء المرشحة ذات الإنتروبيا الأدنى للحصول على سحابة النقاط ثلاثية الأبعاد عالية الدقة النهائية.

تُمكّن هذه العملية برنامج Wave-Former من التعامل مع حالات الانسداد المعقدة، والتغطية المنخفضة، والضوضاء العالية في سيناريوهات العالم الحقيقي، مما يُكمل عملية إعادة البناء ثلاثية الأبعاد الشاملة.

يمثل Wave-Former تحسناً كبيراً مقارنة بأساليب إعادة بناء الموجات المليمترية ثلاثية الأبعاد السابقة ذات التقنية العالية.

لتقييم الأداء، قارن الباحثون برنامج Wave-Former بأربعة من أحدث برامج إعادة بناء الموجات المليمترية:

* الإسقاط الخلفي: طريقة تصوير الموجات المليمترية الكلاسيكية والأكثر استخدامًا على نطاق واسع، وهي طريقة لإعادة بناء الحجم تعتمد على المبادئ الأساسية.

* mmNorm: طريقة إعادة بناء ثلاثية الأبعاد حديثة ومتطورة تعتمد أيضًا على المبادئ الأساسية، تعيد بناء سطح الجسم عن طريق تقدير متجهات السطح العمودية.

* RMap: طريقة متطورة لإعادة بناء الموجات المليمترية تعتمد على التعلم، تم تطويرها في الأصل لفهم مستوى المشهد.

* RMap (نسخة مضبوطة بدقة): يتم ضبط RMap بدقة على نفس بيانات التدريب مثل Wave-Former لإعادة بناء الكائن.

الأداء النوعي

في البداية، استخدم الباحثون قياسات واقعية لمقارنة برنامج Wave-Former نوعيًا بأربعة برامج مرجعية. يوضح الشكل أدناه مناظر متساوية القياس للصورة الحقيقية RGB (بعد التجزئة) وسحابة النقاط لعدة أجسام محجوبة بالكامل، بالإضافة إلى نتائج إعادة البناء لكل طريقة.

*النتائج النوعية*
مقارنة بصرية لعمليات إعادة بناء ثلاثية الأبعاد باستخدام الموجات المليمترية لأجسام محجوبة تمامًا في العالم الحقيقي

بوضوح،يستطيع برنامج Wave-Former إعادة بناء الشكل الكامل لجسم ما بشكل مستقر، حتى الأشكال الهندسية المعقدة مثل المثاقب أو القوالب.في المقابل، تعاني الطرق الأساسية من انخفاض الدقة، ومحدودية التغطية، وارتفاع مستوى التشويش، وفي بعض الحالات، تكاد تكون عاجزة عن تمييز هندسة الأجسام. تُظهر هذه النتائج التقدم الكبير الذي أحرزه برنامج Wave-Former مقارنةً بأحدث طرق إعادة بناء الصور ثلاثية الأبعاد باستخدام الموجات المليمترية.

النتائج الكمية

يوضح الجدول أدناه أداء برنامج Wave-Former مقارنةً بجميع الخطوط الأساسية من حيث متوسط مسافة Chamfer، ودرجة F، والدقة، والاستدعاء:

*مقارنة برنامج Wave-Former مع أحدث التقنيات في مجال إعادة بناء الموجات المليمترية*

ومن الجدير بالذكر أنلقد تم تحسين معدل استدعاء Wave-Former بشكل كبير، من 54% في أفضل RMap أساسي (إصدار مضبوط بدقة) إلى 72%، مع الحفاظ على دقة عالية تبلغ 85%.علاوة على ذلك، يُظهر مُشكِّل الموجة أقل مسافة شطف عند 0.069، مقارنةً بالخط الأساسي الأمثل البالغ 0.18. وهذا يُبرهن تمامًا على قيمة الطريقة المقترحة في تحقيق إعادة بناء ثلاثية الأبعاد عالية الدقة للأجسام المحجوبة تمامًا.

بالمقارنة مع إكمال الشكل القائم على الرؤية

قام الباحثون أيضًا بتقييم ما إذا كانت نماذج إكمال الأشكال البصرية الأصلية المتطورة قادرة على تحقيق إعادة بناء ثلاثية الأبعاد عالية الدقة باستخدام الموجات المليمترية. يوضح الجدول أدناه مقارنة أداء بين برنامج Wave-Former وأربعة نماذج متطورة أخرى.

*مقارنة مع أحدث نماذج إكمال الشكل الأصلي المرئي على أفضل طرق إعادة بناء الموجات المليمترية*

تفوق نموذج Wave-Former على النماذج الأخرى في جميع المقاييس، حيث حسّن الاستدعاء من 60% إلى 72% مع تحقيق أعلى دقة بلغت 85%.وهذا يدل على أهمية دمج الخصائص الفيزيائية في نماذج إكمال الشكل.

تجربة الاستئصال

وأخيرًا، قام الباحثون أيضًا بتحليل مساهمة كل مكون من مكونات تصميم Wave-Former في الأداء العام. يوضح الجدول أدناه متوسط مسافة الشطف (CD)، والنسبة المئوية الخامسة والسبعين لمسافة الشطف، ونسبة التحسين الهامشي لـ Wave-Former مقارنةً بثلاثة مخططات تنفيذ جزئية مختلفة:

*نتائج اختبار الاستئصال لكل مكون من مكونات جهاز تشكيل الموجة*

عند إزالة التحيز الاستقرائي المدرك بالانعكاس المرآوي والرؤية المعتمدة على الانعكاس (النموذج أ)، يتدهور الأداء بشكل كبير: تزداد مسافة شامفر المتوسطة بمقدار 521 TP3T، ويزداد المئين 75 بمقدار 671 TP3T.

عندما تتم إزالة وحدة إعادة البناء والاكتمال المشتركة (النموذج ب) بشكل أكبر، تزداد مسافة الشطف المتوسطة بمقدار 10%.

عند إزالة وحدة اختيار السطح الواعية بالإنتروبيا (النموذج C) مرة أخرى، يزداد CD في النسبة المئوية 75 بمقدار 19%.

باختصار، تُظهر هذه النتائج بوضوح مساهمة كل مكون من مكونات Wave-Former في الأداء العام.

التوسع التكنولوجي: من "إعادة بناء الأشياء" إلى "إعادة بناء الفضاء"

إذا أثبت برنامج Wave-Former أنه بمساعدة الذكاء الاصطناعي التوليدي وإشارات الموجات المليمترية، من الممكن تحقيق إعادة بناء ثلاثية الأبعاد عالية الدقة لـ "الأجسام المحجوبة تمامًا"،وتأخذ دراسة أخرى متزامنة أجراها فريق معهد ماساتشوستس للتكنولوجيا هذه القدرة خطوة أخرى إلى الأمام، حيث توسعها من كائن واحد إلى الفضاء بأكمله.

في هذه الدراسة، لم يعد الباحثون يركزون فقط على شكل الأشياء المخفية.بدلاً من ذلك، تستخدم هذه التقنية انعكاسات الموجات المليمترية متعددة المسارات التي تتولد أثناء حركة الإنسان في الأماكن المغلقة لإعادة بناء البيئة الداخلية بالكامل.عادة ما تتجاهل الطرق التقليدية مثل هذه الانعكاسات المعقدة باعتبارها ضوضاء، لكن هذه الدراسة وجدت أن ما يسمى بـ "الإشارات الوهمية" تحتوي في الواقع على أدلة مهمة حول البنية المكانية: فعندما تنعكس الإشارة عدة مرات بين جسم الإنسان والجدران والأثاث، فإن التغييرات في مسارها نفسه تشفر المعلومات الهندسية للبيئة.

تكمن المشكلة في أن هذه الإشارات تتسم بالفوضى الشديدة ودقة محدودة، مما يجعل تحليلها المباشر باستخدام النمذجة الفيزيائية التقليدية شبه مستحيل. وللتغلب على هذه المشكلة، استخدم فريق البحث الذكاء الاصطناعي التوليدي لفهم واستكمال نتائج إعادة البناء الأولية المتقطعة والمنخفضة الجودة، مما مكّن النموذج من تعلم الأنماط الإحصائية لانعكاسات المسارات المتعددة واستنتاج التخطيط المكاني الكامل تدريجيًا.

أظهرت تجارب واسعة النطاق أن تقنية RISE، مقارنةً بالتقنيات الحالية في مجال إعادة بناء التصميم، تُقلل مسافة الشطف بمقدار 601 TP3T (إلى 16 سم)، وتحقق لأول مرة كشف الأهداف باستخدام الموجات المليمترية، مع مؤشر تقاطع الاتحاد (IoU) بقيمة 581 TP3T. تشير هذه النتائج إلى أن RISE تُرسي أساسًا جديدًا للإدراك الهندسي وفهم المشاهد الداخلية مع الحفاظ على الخصوصية باستخدام رادار ثابت واحد.

عنوان الورقة: RISE: فهم المشاهد الداخلية باستخدام رادار ثابت واحد

رابط الورقة:https://arxiv.org/abs/2511.14019

من منظور أوسع، تكشف هاتان الدراستان معًا عن مسار تكنولوجي واضح: لم يعد الذكاء الاصطناعي يقتصر على تحسين دقة المستشعرات فحسب، بل بدأ يعوض نقص المعلومات نفسه. سواءً أكان ذلك من خلال إكمال Wave-Former للأجسام المحجوبة أو استنتاج RISE للمساحات الداخلية، فإن جوهرهما يكمن في استخدام النماذج التوليدية لتحويل المدخلات غير المكتملة أو حتى المشوهة بشدة إلى عالم ثلاثي الأبعاد مكتمل بنيويًا ومقبول فيزيائيًا. هذا يعني أن أنظمة الإدراك المستقبلية قد لا تعتمد بعد الآن على "كمية ما يمكن رؤيته"، بل على "كمية ما يمكن استنتاجه". في ظل هذا التوجه، من المتوقع أن تكتسب مجالات مثل الروبوتات والمنازل الذكية وحتى الواقع المعزز قدرة جديدة تمامًا، ألا وهي إعادة بناء الواقع من الخفي.

مراجع:
1.https://arxiv.org/abs/2511.14152
2.https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
3.https://arxiv.org/abs/2511.14019

قام فريق من معهد ماساتشوستس للتكنولوجيا بتحسين أنظمة الرؤية اللاسلكية باستخدام الذكاء الاصطناعي التوليدي لإعادة بناء الأجسام المحجوبة بالكامل بدقة عالية، محققًا ذروة دقة تبلغ 851 TP3T.

منذ 3 أشهر

تم نشر نتائج البحث ذات الصلة، بعنوان "Wave-Former: Through-Occlusion 3D Restruction via Wireless Shape Completion"، كنسخة أولية على arXiv.

أبرز الأبحاث:

توفر مجموعة بيانات الكائنات ثلاثية الأبعاد عينة غنية.