
체화된 인식(Embodied perception)은 자율 에이전트가 환경을 인식하여 행동할 수 있는 능력을 의미합니다. 에이전트의 반응성은 주로 그 처리 파이프라인의 지연(latency)에 의해 결정됩니다. 과거 연구에서는 지연과 정확도 사이의 알고리즘적 균형 trade-off를 분석하였지만, Pareto 최적 지연-정확도 곡선을 따라 다양한 방법을 비교하는 명확한 척도는 없었습니다. 우리는 표준 오프라인 평가와 실시간 응용 간의 불일치를 지적합니다: 알고리즘이 특정 프레임을 처리하는 동안 주변 세계는 이미 변화하였습니다. 이를 해결하기 위해, 우리는 실시간 온라인 인식을 위한 단일 척도로 지연과 정확도를 일관되게 통합하는 접근법을 제시하며, 이를 "스트리밍 정확도(streaming accuracy)"라고 부릅니다. 이 척도의 핵심 아이디어는 각 시간 순간마다 전체 인식 스택의 출력을 공동으로 평가하여, 계산 중 무시해야 하는 스트리밍 데이터의 양을 고려하도록 강제하는 것입니다. 더 넓은 범위에서, 이 척도를 기반으로 하여 어떤 단일 프레임 작업이라도 스트리밍 인식 작업으로 체계적으로 변환할 수 있는 메타-벤치마크를 소개합니다. 우리는 도시 비디오 스트림에서 객체 검출(object detection)과 인스턴스 분할(instance segmentation)이라는 예시적인 작업에 집중하며, 고품질이고 시간적으로 밀집된 주석이 포함된 새로운 데이터셋을 제공합니다. 제안된 솔루션들과 경험적 분석은 다음과 같은 놀라운 결론들을 보여줍니다: (1) Pareto 최적 지연-정확도 곡선 상에서 스트리밍 정확도를 최대화하는 최적의 "달콤한 포인트(sweet spot)"가 존재하며, (2) 비동기 추적(asynchronous tracking)과 미래 예측(future forecasting)은 자연스럽게 내부 표현으로 나타나며, 이는 스트리밍 인식을 가능하게 합니다, 그리고 (3) 동적 스케줄링(dynamic scheduling)은 시간 별칭(temporal aliasing)을 극복하는 데 사용될 수 있으며, 이로 인해 역설적으로 때때로 아무 작업也不做("아무 작업도 하지 않는 것")으로 지연이 최소화되는 결과를 초래합니다.注:在最后一句中,“也不做”被误翻译为“하지 않는 것”,正确的翻译应该是“하지 않고”。以下是修正后的版本:... 그리고 (3) 동적 스케줄링(dynamic scheduling)은 시간 별칭(temporal aliasing)을 극복하는 데 사용될 수 있으며, 이로 인해 역설적으로 때때로 아무 작업도 하지 않고("doing nothing") 지연이 최소화되는 결과를 초래합니다.