2달 전

시야 범위를 넘어서: 클립-리커런트 트랜스포머를 활용한 장면 가시성 및 인식 향상

Hao Shi; Qi Jiang; Kailun Yang; Xiaoting Yin; Ze Wang; Kaiwei Wang
시야 범위를 넘어서: 클립-리커런트 트랜스포머를 활용한 장면 가시성 및 인식 향상
초록

비전 센서는 차량, 로봇 및 도로변 인프라에 널리 적용되고 있습니다. 그러나 하드웨어 비용과 시스템 크기의 제한으로 인해 카메라 시야각(FoV)은 종종 제한되어 충분한 커버리지를 제공하지 못하는 경우가 많습니다. 그럼에도 불구하고, 공간-시간적 관점에서 과거 비디오 스트림에서 카메라의 물리적 FoV를 넘어서 정보를 얻을 수 있습니다. 본 논문에서는 자율 주행 차량의 시야각을 확장하여 장면 가시성, 인식 능력 및 시스템 안전성을 향상시키기 위한 온라인 비디오 인페인팅 개념을 제안합니다. 이를 위해 시간적으로 누적된 전역 정보를 단계적으로 처리하기 위해 광학 유동(optical flow)을 명시적으로 활용하고, 새로운 클립-순환 변환기(clip-recurrent transformer)를 암시적으로 통합하는 FlowLens 아키텍처를 소개합니다. FlowLens는 두 가지 핵심 특징을 제공합니다: 1) FlowLens는 시간적으로 누적된 전역 정보를 단계적으로 처리하기 위해 새로 설계된 3D 분리 크로스 어텐션(3D-Decoupled Cross Attention, DDCA)이 포함된 클립-순환 허브(Clip-Recurrent Hub)를 포함합니다. 2) 다중 브랜치 혼합 융합 피드 포워드 네트워크(Mix Fusion Feed Forward Network, MixF3N)를 통합하여 지역 특징의 정확한 공간 유동(spatial flow)을 강화합니다.훈련 및 평가를 용이하게 하기 위해 다양한 FoV 마스크를 포함하는 KITTI360 데이터셋을 도출하였습니다. 이 데이터셋은 외부와 내부 FoV 확장 시나리오 모두를 포함하고 있습니다. 또한 우리는 다양한 모델 간에 FoV 범위 외의 의미론적 정보(beyond-FoV semantics)와 FoV 범위 외의 객체 검출(beyond-FoV object detection)에 대한 정량적 평가와 정성적 비교를 수행하였습니다. 우리는 FlowLens를 사용하여 보이지 않는 장면을 재구성함으로써 FoV 내에서도 신뢰할 수 있는 의미론적 맥락(sematic context)을 제공하여 인식 능력을 향상시키는 것을 보여주었습니다. 오프라인 및 온라인 비디오 인페인팅뿐만 아니라 FoV 범위 외의 인식 작업까지 포함하는 광범위한 실험과 사용자 연구 결과, FlowLens가 최고 수준의 성능을 달성한다는 것을 입증하였습니다. 소스 코드와 데이터셋은 https://github.com/MasterHow/FlowLens 에 공개되었습니다.

시야 범위를 넘어서: 클립-리커런트 트랜스포머를 활용한 장면 가시성 및 인식 향상 | 최신 연구 논문 | HyperAI초신경