RGB-이벤트 융합을 이용한 자율주행 차량에서의 이동 객체 검출

이동 객체 검출(Moving Object Detection, MOD)은 안전한 자율 주행을 성공적으로 달성하기 위한 중요한 시각적 과제입니다. 딥러닝 방법의 타당한 결과에도 불구하고, 대부분의 기존 접근 방식은 프레임 기반일 뿐이며 동적인 교통 참여자들을 처리할 때 합리적인 성능을 내지 못할 가능성이 있습니다. 최근 센서 기술의 발전, 특히 이벤트 카메라(Event camera)는 전통적인 카메라 접근 방식을 보완하여 이동 객체를 더 잘 모델링할 수 있게 naturally 지원합니다. 그러나 이벤트 기반 작업은 종종 사전 정의된 시간 창(time window)을 사용하여 이벤트 표현을 하고, 이를 단순히 통합하여 이벤트로부터 이미지 강도(image intensities)를 추정하는 경우가 많아, 사용 가능한 비동기(asynchronous) 이벤트에서 많은 풍부한 시간 정보를 무시하고 있습니다.따라서 새로운 관점에서, 우리는 두 가지 보완적인 모달성을 공동으로 활용하여 자율 주행에서 도전적인 상황에서도 더욱 견고한 MOD를 실현하기 위해 RENet이라는 혁신적인 RGB-이벤트 융합 네트워크(RGB-Event fusion Network)를 제안합니다. 구체적으로, 먼저 시간적 다중 스케일 집계 모듈(temporal multi-scale aggregation module)을 설계하여 RGB 노출 시간과 더 큰 간격 모두에서 이벤트 프레임(event frames)을 충분히 활용하도록 하였습니다. 그런 다음 양방향 융합 모듈(bi-directional fusion module)을 소개하여 다중 모달 특징(multi-modal features)을 주의 깊게 head calibration 및 융합할 수 있도록 하였습니다.우리 네트워크의 성능을 평가하기 위해 일반적으로 사용되는 DSEC 데이터셋에서 MOD 부분 데이터셋(sub-MOD dataset)을 신중하게 선택하고 주석(annotation)하였습니다. 광범위한 실험 결과, 제안된 방법이 최신 RGB-이벤트 융합 대안들(state-of-the-art RGB-Event fusion alternatives)보다 현저히 우수한 성능을 보임을 입증하였습니다. 소스 코드와 데이터셋은 공개되어 있으며, 다음 링크에서 확인할 수 있습니다: https://github.com/ZZY-Zhou/RENet.주석:- "head calibration" 부분은 원문에 명확히 언급되지 않았지만, 문맥상 "특징 조정" 또는 "특징 교정"으로 번역되었습니다.- "DSEC dataset"은 한국어로 많이 사용되는 용어로 번역되었습니다.- "state-of-the-art"는 "최신" 또는 "최고 수준의"로 번역되었습니다.