2달 전

4D 시공간 ConvNets: 민코프스키 합성곱 신경망

Choy, Christopher ; Gwak, JunYoung ; Savarese, Silvio
4D 시공간 ConvNets: 민코프스키 합성곱 신경망
초록

많은 로봇공학 및 VR/AR 응용 프로그램에서 3D 비디오는 입력의 주요 원천으로 사용됩니다(연속적인 깊이 이미지 시퀀스 또는 LIDAR 스캔). 그러나 이러한 3D 비디오는 2D 컨볼루션 신경망(CNN)이나 3D 인식 알고리즘을 통해 프레임 단위로 처리됩니다. 본 연구에서는 고차원 컨볼루션을 사용하여 이러한 3D 비디오를 직접 처리할 수 있는 4차원 컨볼루션 신경망을 제안합니다. 이를 위해 희소 텐서(sparse tensor)를 채택하고, 모든 이산 컨볼루션을 포함하는 일반화된 희소 컨볼루션(generalized sparse convolution)을 제안합니다. 일반화된 희소 컨볼루션을 구현하기 위해, 우리는 고차원 컨볼루션 신경망에 대한 다양한 기능을 제공하는 오픈 소스 자동 미분 라이브러리를 생성하였습니다. 이 라이브러리를 사용하여 4D 시공간 컨볼루션 신경망을 생성하고, 다양한 3D 의미 분할 벤치마크와 제안된 4D 데이터셋에서 이를 검증하였습니다.4D 공간의 도전 과제를 극복하기 위해, 일반화된 희소 컨볼루션의 특수 사례인 하이브리드 커널(hybrid kernel)과 7D 시공간-색상 공간에서 시공간 일관성을 강제하는 양자측정-정상 조건부 랜덤 필드(trilateral-stationary conditional random field)를 제안합니다. 실험적으로, 일반화된 3D 희소 컨볼루션만으로 구성된 컨볼루션 신경망이 2D 또는 2D-3D 하이브리드 방법보다 크게 우수함을 보였습니다. 또한, 3D 비디오에서 4D 시공간 컨볼루션 신경망은 노이즈에 견고하며, 3D 컨볼루션 신경망보다 우수한 성능을 보이고 일부 경우에는 더 빠른 처리 속도를 나타냈습니다.

4D 시공간 ConvNets: 민코프스키 합성곱 신경망 | 최신 연구 논문 | HyperAI초신경