혼돈에서 질서가 탄생한다: 객체 인식 및 탐지를 위한 이벤트 표현의 정렬

오늘날 최첨단 심층 신경망은 이벤트를 처리하기 전에 먼저 이를 밀도 높은 격자 형태의 입력 표현으로 변환한 후, 표준화된 네트워크를 사용한다. 그러나 기존에는 각각의 표현에 대해 신경망을 별도로 학습시켜 검증 점수를 기준으로 최적의 표현을 선택해야 했으며, 이 과정은 매우 시간이 오래 걸리는 문제였다. 본 연구는 원시 이벤트와 그 표현 간의 그로모프-워샤르슈타인 불일치(Gromov-Wasserstein Discrepancy, GWD)를 기반으로 표현을 선택함으로써 이러한 병목 현상을 제거한다. GWD는 신경망 학습보다 약 200배 빠르게 계산 가능하며, 다양한 표현들, 네트워크 백본, 데이터셋, 작업에 걸쳐 이벤트 표현의 작업 성능 순위를 잘 보존한다. 따라서 높은 작업 점수를 갖는 표현을 찾는 것은 GWD가 낮은 표현을 찾는 것과 동일하다는 점을 활용해, 본 연구는 이벤트 표현의 거대한 가족에 대해 처음으로 하이퍼파라미터 탐색을 수행하였으며, 기존 최고 성능을 초월하는 새로운 강력한 표현들을 발견하였다. 최적화된 표현은 1 Mpx 데이터셋에서 기존 표현보다 1.7 mAP 향상되었고, Gen1 데이터셋에서는 0.3 mAP 향상되었으며, 미니 N-ImageNet 벤치마크에서는 분류 정확도가 3.8% 높아졌다. 또한 Gen1 데이터셋에서는 기존 최고 수준의 성능보다 2.1 mAP 향상되었고, 1 Mpx 데이터셋에서는 기존 전방향(Feed-forward) 방법보다 6.0 mAP 높은 성능을 달성하였다. 본 연구는 이벤트 기반 학습을 위한 명시적 표현 최적화라는 새롭고 탐색되지 않은 분야를 여는 계기를 마련하였다.