Une Équipe Du MIT a Amélioré Les Systèmes De Vision Sans Fil En Utilisant l'IA Générative Pour Reconstruire Des Objets Totalement Occultés Avec Une Grande Précision, Atteignant Une Précision Maximale De 851 TP3T.

il y a 3 mois

Dans les domaines de la vision par ordinateur et de la détection intelligente, la reconstruction d'objets totalement occultés a toujours constitué un défi de recherche majeur. Prenons l'exemple de colis empilés dans un entrepôt logistique, d'équipements complexes sur une chaîne de production ou d'applications de réalité augmentée nécessitant l'identification d'objets cachés : les capteurs optiques traditionnels, tels que les caméras ou les LiDAR, sont souvent inefficaces. Ils reposent sur la réflexion de la lumière visible ou de faisceaux laser, mais ces signaux sont bloqués par les obstacles, rendant les objets indétectables.

Ces dernières années, l'émergence de la technologie des ondes millimétriques (mmWave) a apporté une nouvelle solution à ce problème.Les signaux à ondes millimétriques peuvent pénétrer des obstacles courants tels que les boîtes en carton et les tissus, tout en étant sûrs et doux pour le corps humain.Cela lui confère un potentiel énorme dans des domaines tels que l'industrie, la logistique, la robotique et la réalité augmentée. Néanmoins,Les signaux à ondes millimétriques présentent des caractéristiques de réflexion spéculaire, un bruit élevé et une faible résolution spatiale, ce qui rend difficile leur utilisation directe pour une reconstruction 3D complète.Pour pallier ce problème, une approche consiste à appliquer des modèles de complétion de forme existants, basés sur la vision, à la reconstruction d'ondes millimétriques. Cependant, cette stratégie échoue souvent à produire des résultats de reconstruction fiables, car ces modèles ont été initialement conçus pour des capteurs de lumière visible à haute résolution et à large couverture, et ne tiennent pas compte des caractéristiques physiques uniques de la réflexion des ondes millimétriques.

En réponse à ce problème,Des chercheurs du MIT ont proposé une nouvelle méthode appelée Wave-Former, qui comble le fossé entre la détection sans fil et les techniques modernes de complétion de formes en intégrant les propriétés physiques des ondes millimétriques dans le processus d'apprentissage, permettant une reconstruction 3D de haute précision de formes d'objets du quotidien divers et totalement occultés.Cette méthode résout non seulement les problèmes de bruit de signal élevé et d'occlusion importante, mais permet également une reconstruction haute fidélité en environnement réel grâce à un apprentissage sur données synthétiques et à un cadre novateur d'entraînement à la perception physique. Comparée aux méthodes de référence les plus performantes, Wave-Former améliore le rappel de 541 TP3T à 721 TP3T tout en conservant une précision élevée de 851 TP3T.

Les résultats de recherche associés, intitulés « Wave-Former : Reconstruction 3D à travers une occlusion via la complétion de forme sans fil », ont été publiés en tant que prépublication sur arXiv.

Points saillants de la recherche :

Cet article propose pour la première fois un cadre de complétion de forme 3D en ondes millimétriques pour divers objets, permettant au modèle d'être entraîné entièrement sur des données synthétiques tout en réalisant simultanément une reconstruction 3D sur des données réelles.

* Cette méthode améliore le taux de rappel de 54% à 72% sur l'ensemble de données MITO réel, surpassant les méthodes de reconstruction d'ondes millimétriques existantes.

* Lorsqu'il est appliqué à des nuages de points partiels à ondes millimétriques, il surpasse le modèle de complétion visuelle natif, améliorant le rappel de 121 TP3T et atteignant une précision maximale de 851 TP3T.

Adresse du document :
https://arxiv.org/abs/2511.14152
Suivez notre compte WeChat officiel et répondez « ondes millimétriques » en arrière-plan pour obtenir le PDF complet.

L'ensemble de données d'objets 3D fournit un échantillon riche.

Pour entraîner et valider Wave-Former, l'équipe de recherche a utilisé trois ensembles de données d'objets 3D accessibles au public :

* OmniObject3D :Elle contient une grande quantité de données de nuages de points diversifiées d'objets du quotidien, couvrant des catégories telles que les meubles, les outils et les jouets.

* Jouets 4K-3D :En se concentrant sur les jouets et les petits objets, elle enrichit la diversité des formes et des propriétés des matériaux.

* Sous-ensemble Objaverse Thingiverse :Elle fournit une plateforme open source permettant de créer des modèles 3D pour générer des données d'entraînement synthétiques.

Ces trois ensembles de données contiennent au total plus de 25 000 nuages de points 3D.Il fournit un ensemble riche d'exemples d'entraînement pour Wave-Former.

Dans l'évaluation en situation réelle, l'équipe de recherche a utilisé l'ensemble de données MITO, qui contient 61 objets provenant de l'ensemble de données YCB.Ces objets couvrent un large éventail de situations, incluant ustensiles de cuisine, outils, aliments et jouets. Ils sont fabriqués à partir de matériaux tels que le bois, le métal, le carton et le plastique, et se déclinent en une grande variété de formes complexes.Cela inclut les arêtes vives, les surfaces planes et les surfaces courbes. Des mesures en ondes millimétriques ont été effectuées sur chaque objet, en conditions de visée directe et d'occlusion complète, ce qui a permis de tester rigoureusement la capacité de généralisation du modèle.
Remarque : L’ensemble de données YCB, abréviation de YCB Object and Model Set, est un ensemble de données standard classique et largement utilisé dans les domaines de la robotique et de la vision par ordinateur.

Il convient de préciser que l'entraînement de Wave-Former repose entièrement sur des données synthétiques. Grâce à un cadre d'entraînement basé sur la perception physique, le modèle apprend les caractéristiques des signaux millimétriques, ce qui lui permet d'obtenir de bonnes performances lors de mesures réelles et de s'affranchir des difficultés d'entraînement liées à la rareté des données millimétriques réelles.

Wave-Former : Entraîné sur des données synthétiques, il réalise une reconstruction 3D sur des données réelles.

La conception de base de Wave-Former se compose de deux parties : un processus d'entraînement à la perception physique et un processus d'inférence dans le monde réel.Cette conception tient pleinement compte des caractéristiques des signaux à ondes millimétriques : réflexion spéculaire, bruit élevé, faible résolution spatiale et non-uniformité de la visibilité. Le processus global est illustré dans la figure ci-dessous :

*processus de reconstruction des ondes millimétriques*

chaîne de formation prenant en compte la physique

Le processus d'entraînement de Wave-Former, qui prend en compte la physique, intègre les propriétés physiques dans l'entraînement grâce à un biais inductif de la perception de la réflexion miroir, des modèles de visibilité dépendants de la réflexion et un cadre d'optimisation et de complétion conjoint, permettant au modèle d'être entraîné entièrement sur des données synthétiques.

Le premier est le biais inductif de la perception de la réflexion spéculaire.Les modèles de complétion existants basés sur la vision encodent essentiellement un biais inductif compatible avec la lumière visible, mais ce biais est incompatible avec les signaux millimétriques car leurs observations partielles, comparables à celles d'un appareil photo, supposent une réflexion diffuse et une large couverture. Pour résoudre ce problème, les chercheurs ont redéfini le biais inductif à l'aide d'observations partielles physiquement cohérentes afin de simuler la réflexion spéculaire des signaux millimétriques.

La seconde est la visibilité qui dépend de la réflexion.Contrairement aux capteurs optiques, la visibilité en ondes millimétriques présente une forte anisotropie : la réflexion mesurable dépend de l’angle d’incidence et de l’intensité de la réflexion sur l’objet. Par conséquent, deux objets de géométrie identique peuvent présenter une visibilité très différente en raison de leurs propriétés matérielles.

Pour modéliser ce comportement,Les chercheurs ont introduit un modèle de visibilité dépendant de la réflexion.Les points d'atténuation de la surface sont déterminés par des contraintes physiques et matérielles. Ceci remplace l'hypothèse courante de couverture isotrope, permettant au réseau de comprendre que la visibilité des ondes millimétriques est intrinsèquement non uniforme et dépendante de l'angle d'incidence.

La troisième étape consiste à combiner le débruitage et la complétion.Les modèles existants de complétion de formes basés sur la vision sont conçus pour les caractéristiques typiques de bruit et de résolution des caméras ou des capteurs LiDAR, supposant ainsi que le nuage de points partiel d'entrée peut être directement assemblé avec les points reconstruits. Cependant, les signaux millimétriques présentent un bruit nettement plus élevé et une résolution réduite, ce qui entraîne une forte distorsion du résultat final de la reconstruction par les stratégies d'assemblage existantes.

Pour résoudre ce problème,Des chercheurs ont proposé une méthode conjointe d'optimisation et de réalisation.Du bruit est introduit pendant l'entraînement pour simuler les caractéristiques des signaux millimétriques réels, puis la fonction de perte est redéfinie afin que le modèle puisse produire une forme 3D complète (sans assembler l'entrée), réinterprétant ainsi les points non fiables au lieu de simplement les préserver.

L'ensemble du cadre de formation est basé sur l'architecture encodeur-décodeur Transformer (structure dorsale PointTr), combinée à un modèle d'observation physiquement cohérent et à un objectif de débruitage et de complétion.Cela permet d'entraîner le modèle sur des données entièrement synthétiques et d'obtenir une reconstruction haute fidélité sur de véritables signaux millimétriques.

Processus d'inférence dans le monde réel

Le processus d'inférence du monde réel de Wave-Former utilise un pipeline en trois étapes pour reconstruire des objets 3D complets à partir de signaux d'ondes millimétriques réels.

Génération de candidats de surface en ondes millimétriques (première étape)

Dans un premier temps, les chercheurs ont transformé les mesures brutes d'ondes millimétriques en un ensemble de surfaces partielles candidates, capturant ainsi avec précision les informations géométriques contenues dans les réflexions. L'estimation classique d'un nuage de points partiel en ondes millimétriques repose sur le seuillage de l'image de puissance 3D ; or, cette méthode génère un grand nombre de points erronés. Les chercheurs ont donc exploité les récentes avancées en imagerie millimétrique pour transformer les réflexions brutes en un espace de surfaces partielles géométriquement cohérent.

Complétion de la forme par perception physique (deuxième étape)

Le modèle entraîné est appliqué à chaque surface candidate afin de générer un ensemble de reconstructions candidates complètes et physiquement cohérentes.

Sélection de surface par détection d'entropie (Phase 3)

En cas de bruit élevé ou de faible réflexion, la continuité et la planéité du nuage de points sont mesurées par l'entropie locale, et la reconstruction candidate avec l'entropie la plus faible est sélectionnée pour obtenir le nuage de points 3D final haute fidélité.

Ce processus permet à Wave-Former de gérer des scénarios réels complexes d'occlusion, de faible couverture et de bruit élevé, réalisant ainsi une reconstruction 3D complète.

Wave-Former représente une amélioration significative par rapport aux méthodes de reconstruction 3D par ondes millimétriques de pointe précédentes.

Pour évaluer les performances, les chercheurs ont comparé Wave-Former à quatre systèmes de référence de reconstruction d'ondes millimétriques de pointe :

* Rétroprojection : Méthode d’imagerie par ondes millimétriques classique et très répandue, méthode de reconstruction volumique basée sur les principes fondamentaux.

* mmNorm : Une méthode de reconstruction 3D à ondes millimétriques de pointe récemment proposée, également basée sur les principes fondamentaux, reconstruit la surface de l'objet en estimant les vecteurs normaux de la surface.

* RMap : une méthode de reconstruction d’ondes millimétriques basée sur l’apprentissage et à la pointe de la technologie, initialement développée pour la compréhension au niveau de la scène.

* RMap (version affinée) : RMap est affiné sur les mêmes données d’entraînement que Wave-Former pour la reconstruction d’objets.

Performance qualitative

Dans un premier temps, les chercheurs ont utilisé des mesures réelles pour comparer qualitativement Wave-Former à quatre méthodes de référence. La figure ci-dessous présente des vues isométriques des images RGB réelles (après segmentation) et du nuage de points de plusieurs objets totalement occultés, ainsi que les résultats de reconstruction de chaque méthode.

*Résultats qualitatifs*
*Comparaison visuelle de reconstructions 3D en ondes millimétriques d'objets complètement occultés dans le monde réel*

Évidemment,Wave-Former peut reconstruire de manière stable la forme complète d'un objet, même des géométries complexes telles que des forets ou des gabarits.À l'inverse, les méthodes de référence souffrent d'une faible précision, d'une couverture limitée, d'un bruit élevé et, dans certains cas, sont presque incapables de distinguer la géométrie des objets. Ces résultats démontrent le progrès significatif de Wave-Former par rapport aux méthodes de reconstruction 3D par ondes millimétriques les plus performantes.

Résultats quantitatifs

Le tableau ci-dessous présente les performances de Wave-Former par rapport à toutes les méthodes de référence en termes de distance moyenne de Chamfer, de score F, de précision et de rappel :

*Comparaison de Wave-Former avec les méthodes de référence de reconstruction d'ondes millimétriques les plus performantes*

Il convient de noter queLe taux de rappel de Wave-Former a été considérablement amélioré, passant de 54% dans la meilleure RMap de base (version finement réglée) à 72%, tout en maintenant une précision élevée de 85%.De plus, Wave-Former présente la plus faible distance de chanfrein (0,069), comparée à la valeur de référence optimale de 0,18. Ceci démontre pleinement l'intérêt de la méthode proposée pour obtenir une reconstruction 3D de haute précision d'objets totalement occultés.

Comparé à la complétion de formes basée sur la vision

Les chercheurs ont également évalué si les modèles de complétion de formes visuelles natives les plus performants pouvaient permettre une reconstruction 3D de haute précision par ondes millimétriques. Le tableau ci-dessous compare les performances de Wave-Former à celles de quatre modèles de pointe :

*Comparaison avec les modèles de complétion de forme native visuelle de pointe sur les méthodes de reconstruction d'ondes millimétriques de haut niveau*

Wave-Former a surpassé les autres modèles sur tous les points, améliorant le rappel de 60% à 72% tout en atteignant la plus haute précision de 85%.Ceci démontre l'importance d'intégrer les propriétés physiques dans les modèles de complétion de forme.

Expérience d'ablation

Enfin, les chercheurs ont également analysé la contribution de chaque composant de conception du Wave-Former à la performance globale. Le tableau ci-dessous présente la distance moyenne de chanfrein (CD), le CD au 75e percentile et le pourcentage d'amélioration marginale du Wave-Former par rapport à trois schémas d'implémentation partielle différents :

*Résultats des tests d'ablation de chaque composant du Wave-Former*

Lorsque le biais inductif perçu par réflexion spéculaire et la visibilité dépendante de la réflexion (modèle A) sont supprimés, les performances se dégradent considérablement : la distance moyenne de Chanfrein augmente de 521 TP3T et le 75e percentile augmente de 671 TP3T.

Lorsque le module de reconstruction et de complétion de l'articulation (modèle B) est retiré, la distance moyenne du chanfrein augmente de 10%.

Lorsque le module de sélection de surface sensible à l'entropie (modèle C) est à nouveau supprimé, le CD du 75e percentile augmente de 19%.

En résumé, ces résultats démontrent clairement la contribution de chaque composant du Wave-Former à la performance globale.

Extension technologique : De la « reconstruction des objets » à la « reconstruction de l'espace »

Si Wave-Former a prouvé qu'avec l'aide de l'IA générative et des signaux à ondes millimétriques, il est possible de réaliser une reconstruction 3D de haute précision d'« objets complètement occultés »,Une autre étude menée en parallèle par l'équipe du MIT pousse cette capacité encore plus loin, en l'étendant d'un seul objet à l'espace entier.

Dans cette étude, les chercheurs ne se concentrent plus uniquement sur la forme des objets cachés.Au lieu de cela, elle utilise les réflexions multi-trajets des ondes millimétriques générées lors des mouvements humains à l'intérieur pour reconstituer l'environnement intérieur complet.Les méthodes traditionnelles considèrent généralement ces réflexions complexes comme du bruit, mais cette étude a révélé que ces soi-disant « signaux fantômes » contiennent en réalité des indices importants sur la structure spatiale : lorsque le signal se réfléchit plusieurs fois entre le corps humain, les murs et les meubles, les changements de son trajet lui-même encodent les informations géométriques de l'environnement.

Le problème réside dans le caractère très chaotique et la faible résolution de ces signaux, ce qui rend leur analyse directe par modélisation physique traditionnelle quasi impossible. Pour y remédier, l'équipe de recherche a introduit l'intelligence artificielle générative afin de comprendre et de compléter ces résultats de reconstruction initiaux, épars et de faible qualité. Le modèle peut ainsi apprendre les caractéristiques statistiques des réflexions à trajets multiples et déduire progressivement la configuration spatiale complète.

Des expériences approfondies démontrent que, comparée aux techniques existantes de reconstruction d'agencement, RISE réduit la distance de chanfrein de 601 TP3T (jusqu'à 16 cm) et permet, pour la première fois, la détection de cibles par ondes millimétriques, avec un IoU de 581 TP3T. Ces résultats indiquent que RISE ouvre de nouvelles perspectives pour la perception géométrique et la compréhension de scènes intérieures respectueuses de la vie privée, grâce à un simple radar statique.

Titre de l'article : RISE : Compréhension de scènes intérieures basée sur un radar statique unique

Lien vers l'article :https://arxiv.org/abs/2511.14019

D'un point de vue plus large, ces deux études révèlent ensemble une voie technologique claire : l'IA ne se contente plus d'améliorer la précision des capteurs, mais commence à compenser le manque d'informations lui-même. Qu'il s'agisse de la complétion d'objets occultés par Wave-Former ou de l'inférence d'espaces intérieurs par RISE, leur essence réside dans l'utilisation de modèles génératifs pour transformer des données incomplètes, voire fortement déformées, en un monde tridimensionnel structurellement complet et physiquement plausible. Cela signifie que les futurs systèmes de perception pourraient ne plus dépendre de la quantité d'informations visibles, mais plutôt de la quantité d'informations déduites. Dans ce contexte, des domaines tels que la robotique, les maisons intelligentes et même la réalité augmentée devraient acquérir une capacité inédite : la reconstruction de la réalité à partir de l'invisible.

Références :
1.https://arxiv.org/abs/2511.14152
2.https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
3.https://arxiv.org/abs/2511.14019

Associé Actualités

L'intelligence Artificielle a Découvert 118 Nouvelles Exoplanètes ! Une Équipe De l'université De Warwick a Proposé RAVEN, Qui Permet Une Comparaison Directe Des Scénarios Planétaires Avec Chaque Faux positif.

Le MIT Propose DRiffusion, Qui Permet d'obtenir Une Accélération De l'inférence De 1,4 À 3,7 Fois, Afin De Surmonter Le Goulot d'étranglement De La Latence d'échantillonnage Dans Les Modèles De diffusion.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Le MIT Et IBM Ont Publié ChartNet, Le Plus Grand Ensemble De Données De Graphiques Synthétiques À Ce Jour, Générant 1,5 Million d'échantillons De Graphiques diversifiés.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Avec Une Précision d'estimation De Profondeur Atteignant 0,9, Meta a Proposé VLM³, Démontrant Que Les Modèles Visuels Sont Intrinsèquement Capables d'apprendre La 3D Et De Réaliser Une Modélisation Unifiée Pour De Multiples Tâches Basée Sur Qwen3-VL-4B.

À Partir De Données Spectrales Simulées Provenant De 2 000 Matériaux Semi-conducteurs, l'équipe Du MIT a Proposé DefectNet, Capable d'analyser Six Défauts De Substitution coexistants.

Une Équipe Française a Prédit Avec Succès 2,39 Millions De Protéines Antiphages Et a Utilisé Un Modèle d'apprentissage Profond Pour Cartographier l'immunité Antivirale bactérienne.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

HyperAI

Une Équipe Du MIT a Amélioré Les Systèmes De Vision Sans Fil En Utilisant l'IA Générative Pour Reconstruire Des Objets Totalement Occultés Avec Une Grande Précision, Atteignant Une Précision Maximale De 851 TP3T.

il y a 3 mois

Information

IA Pour La Science

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Vision Par Ordinateur