15일 전
마스킹된 이벤트 모델링: 이벤트 카메라를 위한 자기지도 학습 전학습
Simon Klenk, David Bonello, Lukas Koestler, Nikita Araslanov, Daniel Cremers

초록
이벤트 카메라는 낮은 지연 시간, 높은 시간 해상도 및 넓은 다이내믹 레인지로 비밀도 변화를 비동기적으로 캡처합니다. 그러나 이벤트 데이터의 레이블링은 비용이 많이 들고 수작업이 필요한 과정으로, 이 모달리티를 활용한 분류 및 기타 의미론적 작업에 딥러닝 기법의 활용을 제한하고 있습니다. 레이블링된 이벤트 데이터에 대한 의존도를 줄이기 위해, 우리는 이벤트 데이터를 위한 자기지도 학습 프레임워크인 마스킹 이벤트 모델링(Masked Event Modeling, MEM)을 제안합니다. 본 연구에서 제안하는 방법은 어떤 이벤트 카메라 기록에서도 유래할 수 있는 레이블 없는 이벤트 데이터를 기반으로 신경망을 사전 훈련합니다. 이후 해당 사전 훈련된 모델을 하류 작업에 대해 미세 조정함으로써 작업 정확도가 일관되게 향상됩니다. 예를 들어, 본 방법은 N-ImageNet, N-Cars, N-Caltech101 세 가지 데이터셋에서 최신 기술 수준의 분류 정확도를 달성하며, 이전 연구 대비 상당한 수준의 상위 1위 정확도 향상을 보였습니다. 실제 세계의 이벤트 데이터에 대해 평가한 결과, MEM은 감독 학습 기반의 RGB 사전 훈련보다도 우수한 성능을 나타냈습니다. 또한 MEM을 통해 사전 훈련된 모델은 레이블 효율성이 뛰어나고, 의미론적 이미지 세그멘테이션과 같은 밀도 높은 작업에 잘 일반화되는 특성을 보였습니다.