2달 전

실용적인 비디오 객체 검출을 위한 특성 선택 및 집합

Yuheng Shi; Tong Zhang; Xiaojie Guo
실용적인 비디오 객체 검출을 위한 특성 선택 및 집합
초록

스틸 이미지 객체 검출과 비교할 때, 비디오 객체 검출(VOD)은 객체의 프레임 간 높은 변화와 일부 프레임에서의 다양한 악화를 특히 고려해야 합니다. 원칙적으로, 비디오의 특정 프레임에서의 검출은 다른 프레임의 정보로부터 이점을 얻을 수 있습니다. 따라서, 서로 다른 프레임 간 특징을 효과적으로 집계하는 방법이 목표 문제에 있어 핵심입니다. 최근의 대부분 집계 방법들은 두 단계 검출기에 맞춰져 있어, 이들의 이중 단계 특성으로 인해 높은 계산 비용을 겪고 있습니다. 한편, 일 단계 검출기는 정적 이미지를 처리하는 데 지속적인 진전을 이루었지만, VOD에 대한 적용 가능성은 충분히 탐구되지 않았습니다.위와 같은 문제들을 해결하기 위해, 본 연구에서는 매우 간단하면서도 강력한 특징 선택 및 집계 전략을 발명하였습니다. 이를 통해 경미한 계산 비용으로 상당한 정확도 향상을 달성하였습니다. 구체적으로, 일 단계 객체 검출기의 밀집 예측 특성을 통해 발생하는 막대한 계산 및 메모리 소비를 줄이기 위해 먼저 밀집 예측 맵에서 후보 특징을 축소합니다. 그런 다음, 대상 프레임과 참조 프레임 간의 관계를 평가하여 집게 과정을 안내합니다. 본 설계의 유효성을 확인하기 위해 포괄적인 실험과 절차 분석이 수행되었으며, 그 결과 본 모델이 효과성과 효율성 면에서 다른 최첨단 VOD 방법들보다 우수함을 입증하였습니다.특히, 본 모델은 \emph{ImageNet VID 데이터셋에서 단일 3090 GPU로 30 FPS 이상에서 92.9\% AP50라는 새로운 기록 성능}을 달성하여 대규모 또는 실시간 응용 분야에 매력적인 옵션이 되었습니다. 구현은 간단하며 \url{https://github.com/YuHengsss/YOLOV}에서 접근 가능합니다.

실용적인 비디오 객체 검출을 위한 특성 선택 및 집합 | 최신 연구 논문 | HyperAI초신경