MIT 연구팀은 생성형 인공지능을 활용하여 완전히 가려진 물체를 높은 정확도로 재구성하는 무선 비전 시스템을 개선했으며, 최고 정확도 851 TP3T를 달성했습니다.

4달 전

컴퓨터 비전 및 지능형 센싱 분야에서 완전히 가려진 물체를 재구성하는 것은 항상 어려운 연구 과제였습니다. 물류 창고에 쌓인 포장물, 생산 라인의 복잡한 장비, 또는 숨겨진 물체를 식별해야 하는 증강 현실 애플리케이션을 상상해 보세요. 카메라나 LiDAR와 같은 기존 광학 센서는 이러한 상황에서 효과적이지 못한 경우가 많습니다. 이러한 센서는 가시광선이나 레이저 라인의 반사에 의존하는데, 이러한 신호는 장애물을 만나면 차단되어 물체를 관측할 수 없게 됩니다.

최근 몇 년 동안 밀리미터파(mmWave) 기술의 등장으로 이 문제에 대한 새로운 해결책이 제시되었습니다.밀리미터파 신호는 골판지 상자나 천과 같은 일반적인 장애물을 투과할 수 있으며, 인체에도 안전하고 부드럽습니다.이러한 특징 덕분에 산업, 물류, 로봇공학, 증강현실 등 다양한 분야에서 엄청난 잠재력을 지니고 있습니다. 그럼에도 불구하고,밀리미터파 신호는 거울 반사 특성, 높은 잡음, 낮은 공간 해상도를 가지고 있어 이를 직접 사용하여 완전한 3D 재구성을 수행하는 데 어려움이 있습니다.이 문제를 해결하기 위한 한 가지 접근 방식은 기존의 비전 기반 형상 완성 모델을 밀리미터파 재구성에 적용하는 것입니다. 그러나 이러한 모델은 원래 넓은 범위와 높은 해상도를 가진 가시광선 센서를 위해 설계되었으며 밀리미터파 반사의 고유한 물리적 특성을 고려하지 않기 때문에 신뢰할 수 있는 재구성 결과를 얻지 못하는 경우가 많습니다.

이러한 불편 사항에 대한 해결책으로,MIT 연구진은 밀리미터파의 물리적 특성을 학습 과정에 접목시켜 무선 센싱과 최신 형상 복원 기술 간의 간극을 메우는 '웨이브 포머(Wave-Former)'라는 새로운 방법을 제안했습니다. 이 방법을 통해 완전히 가려진 다양한 일상 사물의 고정밀 3D 형상 재구성이 가능해집니다.이 방법은 높은 신호 잡음과 심각한 가림 현상 문제를 해결할 뿐만 아니라, 혁신적인 물리적 지각 훈련 프레임워크를 통해 합성 데이터 훈련을 기반으로 실제 환경에서 높은 정확도의 재구성을 달성합니다. 최첨단 기준 방법과의 직접 비교에서, Wave-Former는 851 TP3T의 높은 정확도를 유지하면서 재현율을 541 TP3T에서 721 TP3T로 향상시켰습니다.

"Wave-Former: 무선 형상 완성을 통한 폐색 방지 3D 재구성"이라는 제목의 관련 연구 결과는 arXiv에 사전 공개 논문으로 게재되었습니다.

연구 하이라이트:

* 본 논문은 다양한 객체에 적용 가능한 밀리미터파 3D 형상 완성 프레임워크를 최초로 제안하며, 이 프레임워크를 통해 모델은 합성 데이터만으로 학습되면서 동시에 실제 데이터에 대한 3D 재구성을 달성할 수 있다.

* 이 방법은 실제 MITO 데이터 세트에서 재현율을 54%에서 72%로 향상시켜 기존 밀리미터파 재구성 방법을 능가합니다.

* 밀리미터파 부분 포인트 클라우드에 적용했을 때, 기존 시각적 완성 모델을 능가하여 재현율을 121 TP3T 향상시키고 최고 정확도를 851 TP3T 달성했습니다.

서류 주소:
https://arxiv.org/abs/2511.14152
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "밀리미터파"라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

3D 객체 데이터 세트는 풍부한 샘플을 제공합니다.

Wave-Former를 학습 및 검증하기 위해 연구팀은 공개적으로 이용 가능한 3D 객체 데이터셋 3개를 사용했습니다.

* 옴니오브젝트3D:이 데이터베이스에는 가구, 도구, 장난감 등 다양한 범주의 일상 사물에 대한 방대한 양의 다양한 포인트 클라우드 데이터가 포함되어 있습니다.

* 토이즈4K-3D:장난감과 작은 물건에 초점을 맞춰 형태와 재질의 다양성을 풍부하게 합니다.

* Objaverse Thingiverse 하위 집합:이 플랫폼은 3D 모델을 생성하여 합성 학습 데이터를 만들기 위한 오픈 소스 플랫폼을 제공합니다.

이 세 가지 데이터 세트에는 총 25,000개 이상의 3D 포인트 클라우드가 포함되어 있습니다.이는 웨이브포머(Wave-Former)를 위한 풍부한 학습 샘플 세트를 제공합니다.

실제 평가에서 연구팀은 YCB 데이터셋의 객체 61개를 포함하는 MITO 데이터셋을 사용했습니다.이러한 물체들은 주방용품, 도구, 식품, 장난감 등 다양한 용도에 사용됩니다. 나무, 금속, 판지, 플라스틱 등의 재료로 만들어지며, 매우 다양하고 복잡한 형태를 가지고 있습니다.여기에는 날카로운 모서리, 평평한 표면 및 곡면이 포함됩니다. 각 물체에 대해 시선 방향 조건과 완전 차폐 조건 모두에서 밀리미터파 측정을 수행하여 모델의 일반화 능력을 철저하게 검증했습니다.
참고: YCB 데이터셋(YCB Object and Model Set)은 로봇공학 및 컴퓨터 비전 분야에서 널리 사용되는 대표적인 표준 데이터셋입니다.

웨이브포머의 학습은 전적으로 합성 데이터에 의존한다는 점을 언급할 가치가 있습니다. 물리적 인식 학습 프레임워크를 통해 모델은 밀리미터파 신호의 특성을 학습할 수 있으므로 실제 측정에서 우수한 성능을 보이며 실제 밀리미터파 데이터 부족으로 인한 학습 어려움을 피할 수 있습니다.

웨이브포머: 합성 데이터로 학습되어 실제 데이터에서 3D 재구성을 수행합니다.

웨이브포머의 핵심 설계는 물리적 인지 훈련 과정과 실제 세계 추론 과정, 이렇게 두 부분으로 구성됩니다.이 설계는 밀리미터파 신호의 특성, 즉 정반사, 높은 잡음, 낮은 공간 해상도 및 가시성 불균일성을 충분히 고려합니다. 전체적인 과정은 아래 그림에 나와 있습니다.

물리 법칙을 고려한 훈련 파이프라인

웨이브포머의 물리 인식 학습 과정은 거울 반사 인식의 귀납적 편향, 반사에 따른 가시성 패턴, 그리고 공동 최적화 및 완성 프레임워크를 통해 물리적 특성을 학습에 통합하여, 모델이 합성 데이터만으로 학습될 수 있도록 합니다.

첫 번째는 거울 반사 인식의 유도적 편향입니다.기존의 시각 기반 완성 모델은 본질적으로 가시광선에 부합하는 유도 편향을 인코딩하지만, 이러한 편향은 밀리미터파 신호와 호환되지 않습니다. 왜냐하면 이러한 모델의 "카메라와 유사한" 부분 관측은 확산 반사와 넓은 범위를 가정하기 때문입니다. 이 문제를 해결하기 위해 연구진은 밀리미터파 신호의 정반사를 시뮬레이션하는 물리적으로 일관된 부분 관측을 통해 유도 편향을 재정의했습니다.

두 번째는 반사에 의존하는 가시성입니다.광학 센서와 달리 밀리미터파 가시성은 강한 이방성을 나타냅니다. 즉, 측정 가능한 반사량은 입사각과 물체에서 반사되는 빛의 강도에 따라 달라집니다. 따라서 기하학적으로 동일한 두 물체라도 재질 특성으로 인해 가시성이 크게 다를 수 있습니다.

이러한 행동을 모델링하기 위해,연구진은 반사에 따른 가시성 패턴을 도입했습니다.감쇠 표면 지점은 물리적 지침과 재료 제약 조건에 따라 결정됩니다. 이는 일반적인 등방성 커버리지 가정을 대체하여, 밀리미터파 가시성이 본질적으로 불균일하고 각도에 따라 달라진다는 점을 네트워크가 이해할 수 있도록 합니다.

세 번째는 노이즈 감소와 완료를 결합한 방식입니다.기존의 비전 기반 형상 완성 모델은 카메라나 LiDAR 센서의 일반적인 잡음 및 해상도 특성을 고려하여 설계되었기 때문에, 입력된 부분 포인트 클라우드를 재구성된 포인트와 직접 연결할 수 있다고 가정합니다. 그러나 밀리미터파 신호는 잡음이 훨씬 심하고 해상도가 낮아 기존의 연결 전략은 최종 재구성 결과에 상당한 왜곡을 초래합니다.

이 문제를 해결하려면연구진은 공동 최적화 및 완료 방법을 제안했습니다.훈련 과정에서 노이즈를 도입하여 실제 밀리미터파 신호의 특성을 모방하고, 손실 함수를 재정의하여 모델이 입력값을 이어 붙이지 않고 완전한 3D 형상을 출력할 수 있도록 합니다. 이를 통해 신뢰할 수 없는 지점을 단순히 보존하는 대신 재해석합니다.

전체 학습 프레임워크는 물리적으로 일관된 관측 모델과 잡음 제거 및 완성 목표를 결합한 Transformer 인코더-디코더 아키텍처(PoinTr 백본)를 기반으로 합니다.이를 통해 모델은 완전히 합성된 데이터로 학습될 수 있으며 실제 밀리미터파 신호에 대해 높은 정확도의 재구성을 달성할 수 있습니다.

실제 세계 추론 프로세스

웨이브포머의 실제 추론 프로세스는 3단계 파이프라인을 활용하여 실제 밀리미터파 신호로부터 완전한 3D 객체를 재구성합니다.

밀리미터파 표면 후보 생성(1단계)

먼저 연구진은 원시 밀리미터파 측정값을 반사파에 포함된 기하학적 정보를 정확하게 포착하는 후보 부분 표면 집합으로 변환했습니다. 일반적으로 밀리미터파 부분 점군 추정은 밀리미터파 3D 파워 이미지에 임계값 처리를 적용하는 방식에 의존하지만, 이 방식은 많은 수의 오류점을 생성합니다. 연구진은 최근 밀리미터파 이미징 기술의 발전을 활용하여 원시 반사파를 기하학적으로 일관된 부분 표면 공간으로 변환했습니다.

물리적 지각 형태 완성 (2단계)

학습된 모델은 각 후보 표면에 적용되어 물리적으로 일관성 있는 완전한 후보 재구성 세트를 생성합니다.

엔트로피 감지 표면 선택(3단계)

잡음이 심하거나 반사가 약한 경우, 포인트 클라우드의 연속성과 평면성은 로컬 엔트로피를 통해 측정되며, 가장 낮은 엔트로피를 갖는 재구성 후보가 선택되어 최종적으로 고화질 3D 포인트 클라우드를 얻습니다.

이러한 프로세스를 통해 Wave-Former는 복잡한 가림 현상, 낮은 커버리지 및 높은 노이즈가 발생하는 실제 시나리오를 처리하고 포괄적인 3D 재구성을 완료할 수 있습니다.

웨이브포머는 기존의 최첨단 밀리미터파 3D 재구성 방법보다 훨씬 향상된 성능을 보여줍니다.

성능을 평가하기 위해 연구진은 Wave-Former를 최첨단 밀리미터파 재구성 기준선 4개와 비교했습니다.

* 역투영: 고전적이면서 가장 널리 사용되는 밀리미터파 영상화 기법으로, 기본 원리에 기반한 볼륨 재구성 방법입니다.

* mmNorm: 최근 제안된 최첨단 밀리미터파 3D 재구성 방법으로, 기본 원리에 기반하여 표면 법선 벡터를 추정함으로써 객체 표면을 재구성합니다.

* RMap: 장면 수준 이해를 위해 개발된 최첨단 학습 기반 밀리미터파 재구성 방법입니다.

* RMap(정밀 조정 버전): RMap은 객체 재구성을 위해 Wave-Former와 동일한 훈련 데이터를 사용하여 정밀 조정되었습니다.

질적 성과

먼저 연구진은 실제 측정값을 사용하여 웨이브포머(Wave-Former)를 네 가지 기준 방법과 정성적으로 비교했습니다. 아래 그림은 여러 개의 완전히 가려진 객체의 실제 RGB 이미지(분할 후)와 포인트 클라우드의 등각 투영도, 그리고 각 방법의 재구성 결과를 보여줍니다.

*정성적 결과*
*실제 세계에서 완전히 가려진 물체의 밀리미터파 3D 재구성 이미지를 시각적으로 비교*

확실히,웨이브포머는 드릴이나 지그와 같은 복잡한 형상까지 포함하여 물체의 전체 모양을 안정적으로 재구성할 수 있습니다.반면, 기존 방법들은 정확도가 낮고, 적용 범위가 제한적이며, 노이즈가 많고, 어떤 경우에는 객체 형상을 거의 구분하지 못하는 문제점을 가지고 있습니다. 이러한 결과는 웨이브포머(Wave-Former)가 기존의 최첨단 밀리미터파 3D 재구성 방법들에 비해 상당한 발전을 이루었음을 보여줍니다.

정량적 결과

아래 표는 평균 챔퍼 거리, F-점수, 정밀도 및 재현율 측면에서 Wave-Former의 성능을 모든 기준선과 비교하여 보여줍니다.

주목할 점은 다음과 같습니다.Wave-Former의 재현율은 최상의 기준선인 RMap(미세 조정 버전)의 54%에서 72%로 크게 향상되었으며, 정확도는 85%로 높은 수준을 유지하고 있습니다.또한, 웨이브포머는 최적 기준선인 0.18에 비해 가장 낮은 0.069의 챔퍼 거리를 나타냅니다. 이는 제안된 방법이 완전히 가려진 물체의 고정밀 3D 재구성을 달성하는 데 있어 우수함을 명확히 보여줍니다.

시각 기반 도형 완성 방식과 비교했을 때

연구진은 또한 최첨단 네이티브 시각적 형상 완성 모델이 고정밀 밀리미터파 3D 재구성을 달성할 수 있는지 여부를 평가했습니다. 아래 표는 Wave-Former와 4개의 최첨단 모델 간의 성능 비교를 보여줍니다.

*최상위 밀리미터파 재구성 방법에서 최첨단 시각적 네이티브 형상 완성 모델과의 비교*

웨이브포머는 모든 지표에서 다른 모델들을 능가하는 성능을 보였으며, 재현율을 60%에서 72%로 향상시키고 최고 정밀도인 85%를 달성했습니다.이는 형상 완성 모델에 물리적 속성을 통합하는 것이 중요하다는 것을 보여줍니다.

절제 실험

마지막으로 연구진은 웨이브포머의 각 설계 구성 요소가 전체 성능에 미치는 영향을 분석했습니다. 아래 표는 웨이브포머의 평균 모따기 거리(CD), 75번째 백분위수 CD, 그리고 세 가지 다른 부분 구현 방식과 비교한 성능 향상률을 보여줍니다.

반사광에 의해 인지되는 유도 편향과 반사광에 따른 가시성(모델 A)을 제거하면 성능이 크게 저하됩니다. 평균 모따기 거리는 521 TP3T 증가하고, 75번째 백분위수는 671 TP3T 증가합니다.

접합부 재건 및 완성 모듈(모델 B)을 추가로 제거하면 평균 모따기 거리가 10% 증가합니다.

엔트로피 인식 표면 선택 모듈(모델 C)을 다시 제거하면 75번째 백분위수 CD는 19%만큼 증가합니다.

요약하자면, 이러한 결과는 웨이브포머의 각 구성 요소가 전체 성능에 기여하는 바를 명확하게 보여줍니다.

기술적 확장: "사물 재구성"에서 "공간 재구성"으로

웨이브포머(Wave-Former)가 생성형 AI와 밀리미터파 신호를 이용하여 "완전히 가려진 물체"의 고정밀 3D 재구성을 달성할 수 있음을 입증했다면,MIT 연구팀의 또 다른 동시 연구에서는 이러한 기능을 한 단계 더 발전시켜 단일 물체에서 전체 공간으로 확장했습니다.

본 연구에서는 연구자들이 더 이상 숨겨진 물체의 모양에만 초점을 맞추지 않습니다.대신, 이 기술은 실내에서 인체가 움직일 때 발생하는 다중 경로 밀리미터파 반사를 활용하여 실내 환경 전체를 재구성합니다.기존 방식에서는 이러한 복잡한 반사를 잡음으로 간주하여 무시하는 것이 일반적이지만, 본 연구에서는 이러한 소위 "유령 신호"가 실제로는 공간 구조에 대한 중요한 단서를 담고 있음을 발견했습니다. 즉, 신호가 인체와 벽, 가구 사이에서 여러 번 반사될 때, 신호 경로의 변화 자체가 주변 환경의 기하학적 정보를 인코딩한다는 것입니다.

문제는 이러한 신호들이 매우 혼란스럽고 해상도가 제한적이어서 기존의 물리적 모델링으로는 직접 분석하기가 거의 불가능하다는 점입니다. 이를 해결하기 위해 연구팀은 생성형 인공지능을 도입하여 이러한 저품질의 희소한 초기 재구성 결과를 이해하고 보완함으로써, 모델이 다중 경로 반사의 통계적 패턴을 학습하고 점진적으로 완전한 공간적 구조를 추론할 수 있도록 했습니다.

광범위한 실험을 통해 RISE는 기존 레이아웃 재구성 기술과 비교하여 모서리 경사 거리를 601 TP3T(최저 16cm)까지 줄이고, IoU 581 TP3T로 밀리미터파 기반 목표물 탐지를 최초로 구현함을 입증했습니다. 이러한 결과는 RISE가 단일 정적 레이더를 사용하여 기하학적 인식 및 개인 정보 보호를 고려한 실내 장면 이해를 위한 새로운 기반을 마련했음을 보여줍니다.

논문 제목: RISE: 단일 정적 레이더 기반 실내 장면 이해

논문 링크:https://arxiv.org/abs/2511.14019

더 넓은 관점에서 볼 때, 이 두 연구는 명확한 기술적 방향을 제시합니다. 인공지능은 더 이상 센서 정확도 향상에만 그치지 않고, 정보 부족 자체를 보완하기 시작했습니다. 웨이브포머(Wave-Former)의 가려진 객체 복원이나 RISE의 실내 공간 추론은 모두 생성 모델을 활용하여 불완전하거나 심하게 왜곡된 입력값을 구조적으로 완전하고 물리적으로 타당한 3차원 세계로 변환하는 데 핵심적인 역할을 합니다. 이는 미래의 지각 시스템이 더 이상 "얼마나 볼 수 있는가"에 의존하는 것이 아니라 "얼마나 추론할 수 있는가"에 의존하게 될 것임을 의미합니다. 이러한 추세 속에서 로봇공학, 스마트홈, 증강현실과 같은 분야는 보이지 않는 것에서 현실을 재구성하는 완전히 새로운 능력을 확보하게 될 것으로 기대됩니다.

참고문헌:
1.https://arxiv.org/abs/2511.14152
2.https://news.mit.edu/2026/generative-ai-improves-wireless-vision-system-sees-through-obstructions-0319
3.https://arxiv.org/abs/2511.14019

MIT 연구팀은 생성형 인공지능을 활용하여 완전히 가려진 물체를 높은 정확도로 재구성하는 무선 비전 시스템을 개선했으며, 최고 정확도 851 TP3T를 달성했습니다.

4달 전