17일 전

HALSIE: 이미지 및 이벤트 모달리티를 동시에 활용한 분할 학습을 위한 하이브리드 접근법

Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy
HALSIE: 이미지 및 이벤트 모달리티를 동시에 활용한 분할 학습을 위한 하이브리드 접근법
초록

이벤트 카메라는 픽셀 단위의 밝기 변화를 감지하여 비동기적인 이벤트 스트림을 생성한다. 기존 카메라에 비해 훨씬 높은 시간 해상도와 고역역(dynamic range, HDR)을 제공함으로써 실시간 자율 시스템에서 정확한 의미 맵 검색에 큰 잠재력을 지닌다. 그러나 기존의 이벤트 기반 세그멘테이션 구현 방식은 시간적으로 밀도가 높은 이벤트들이 시각 신호의 변화 성분만을 측정하기 때문에, 프레임에 비해 밀도 높은 공간적 맥락을 표현하는 데 한계가 있으며, 이로 인해 성능이 최적화되지 못하는 문제가 있다. 이 문제를 해결하기 위해 우리는 이벤트와 프레임의 보완적인 특징을 추출할 수 있는 하이브리드 엔드투엔드 학습 프레임워크인 HALSIE를 제안한다. 이 프레임워크는 기존 기법 대비 추론 비용을 최대 20배까지 감소시키면서도 유사한 성능을 유지하는 데 성공하였으며, 이를 가능하게 하는 세 가지 핵심 개념을 포함한다. 첫째, 프레임과 이벤트에서 보완적인 시공간 임베딩을 효율적으로 추출할 수 있는 간단하면서도 효과적인 다중 도메인 학습 기법이다. 둘째, 스파이킹 신경망(Spiking Neural Network, SNN)과 인공 신경망(Artificial Neural Network, ANN)을 병렬로 사용하는 특별히 설계된 이중 인코더 아키텍처로, 지연을 최소화하면서도 다중 도메인 특징의 융합을 유지한다. 셋째, 융합된 임베딩의 풍부한 표현력을 모델링하기 위한 다중 해상도 쿠 미서(Multi-scale Cue Mixer)이다. 이러한 특징들 덕분에 HALSIE는 매우 경량화된 아키텍처로 DDD-17, MVSEC, DSEC-Semantic 데이터셋에서 최신 기술 수준의 세그멘테이션 성능을 달성하였으며, 파라미터 효율성은 최대 33배 향상되었고, 추론 비용은 1사이클당 17.9mJ로 유리한 수준을 유지한다. 또한, 본 연구의 아블레이션(ablative) 실험을 통해 다양한 비전 작업에 유익할 수 있는 효과적인 설계 선택에 대한 새로운 통찰을 제공한다.