12일 전

D2Conv3D: 동적 확장 컨볼루션을 활용한 영상 객체 세그멘테이션

{Bastian Leibe, Sabarinath Mahadevan, Ali Athar, Christian Schmidt}
D2Conv3D: 동적 확장 컨볼루션을 활용한 영상 객체 세그멘테이션
초록

단안 영상에서 객체를 세그먼트하고 추적하는 작업은 연구계에서 상당한 주목을 받고 있지만, 여전히 개선할 여지가 크다. 기존 연구들은 다양한 이미지 수준의 세그먼트 작업에서 확장형(convolution) 및 변형 가능한(deformable) 컨볼루션의 효과를 동시에 입증해왔다. 이는 이러한 컨볼루션의 3차원(시공간적) 확장도 영상 수준의 세그먼트 작업에서 성능 향상을 가져올 것이라는 기대를 갖게 한다. 그러나 이 측면은 기존 문헌에서 충분히 탐구되지 않았다. 본 논문에서는 확장형 및 변형 가능한 컨볼루션에서 영감을 얻어 이를 3차원(시공간적) 영역으로 확장한 새로운 형태의 컨볼루션인 동적 확장 컨볼루션(Dynamic Dilated Convolutions, D2Conv3D)을 제안한다. 실험을 통해 D2Conv3D가 표준 컨볼루션을 단순히 대체함으로써 여러 3차원 CNN 아키텍처가 다양한 영상 세그먼트 관련 벤치마크에서 성능 향상을 얻을 수 있음을 입증한다. 또한 D2Conv3D가 기존 확장형 및 변형 가능한 컨볼루션을 3차원으로 단순 확장한 방법보다 우수한 성능을 보임을 보여준다. 마지막으로, DAVIS 2016 비지도 영상 객체 세그먼트 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성한다. 코드는 https://github.com/Schmiddo/d2conv3d에서 공개되어 있다.

D2Conv3D: 동적 확장 컨볼루션을 활용한 영상 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경