16일 전

1메가픽셀 이벤트 카메라를 활용한 객체 탐지 학습

Etienne Perot, Pierre de Tournemire, Davide Nitti, Jonathan Masci, Amos Sironi
1메가픽셀 이벤트 카메라를 활용한 객체 탐지 학습
초록

이벤트 카메라는 높은 시간 정밀도, 낮은 데이터 전송률, 그리고 높은 역동 범위로 시각 정보를 인코딩한다. 이러한 특성 덕분에 이벤트 카메라는 고속 운동, 어려운 조명 조건, 낮은 지연 시간을 요구하는 시나리오에 특히 적합하다. 그러나 이 분야의 신선함으로 인해, 이벤트 기반 시스템의 여러 비전 작업에서의 성능은 전통적인 프레임 기반 솔루션에 비해 여전히 낮은 편이다. 이러한 성능 격차의 주요 원인은 다음과 같다: 프레임 카메라에 비해 이벤트 센서의 공간 해상도가 낮음; 대규모 학습용 데이터셋의 부족; 이벤트 기반 처리를 위한 잘 정립된 딥러닝 아키텍처의 부재. 본 논문에서는 이벤트 기반 객체 탐지 작업의 맥락에서 이러한 문제들을 모두 해결한다. 첫째, 객체 탐지용으로 처음으로 고해상도 대규모 데이터셋을 공개한다. 이 데이터셋은 자동차 시나리오에서 1메가픽셀 이벤트 카메라로 14시간 이상 기록한 자료를 포함하며, 자동차, 보행자, 이륜차 등에 대한 2500만 개의 경계 상자(Bounding Box)가 고주파로 레이블링되어 있다. 둘째, 이벤트 기반 탐지를 위한 새로운 순환 아키텍처와 더 나은 학습 안정성을 위한 시간적 일관성 손실(Temporal Consistency Loss)을 제안한다. 모델 내부 메모리에 이벤트 시퀀스를 효율적으로 압축 표현할 수 있는 능력은 높은 정확도를 달성하는 데 필수적이다. 제안하는 모델은 전방향(Feed-forward) 이벤트 기반 아키텍처를 크게 앞서는 성능을 보인다. 또한, 본 방법은 이벤트에서 강도 이미지를 재구성하는 과정이 필요 없으며, 원시 이벤트로부터 직접 학습하는 것이 가능함을 보여주며, 중간 단계인 강도 이미지로의 변환보다 더 효율적이고 정확하다는 점을 입증한다. 본 연구에서 소개한 데이터셋(이벤트 데이터와 회색조 이미지가 모두 제공됨)을 기반으로 한 실험 결과, 매우 정교하게 튜닝된 전통적인 프레임 기반 탐지기의 성능과 비슷한 수준의 성능을 달성함을 확인하였다.