17일 전

LIGAR: 경량형 일반 목적 동작 인식

Evgeny Izutov
LIGAR: 경량형 일반 목적 동작 인식
초록

비디오 이해 문제에서 다양한 실용적 과제가 점차 증가함에 따라, 광범위한 사용자들에게 적용 가능하고 엣지 중심의 추론 요구사항을 충족할 수 있는 통합 솔루션을 설계하는 데 큰 도전이 제기되고 있다. 본 논문에서는 이러한 도전 과제를 해결하기 위해 네트워크 아키텍처와 학습 파이프라인을 설계하는 데 초점을 맞추고 있다. 제안하는 아키텍처는 기존의 우수한 요소들을 최적화하여, 외형 기반의 동작 인식 과제뿐만 아니라 운동 기반의 문제에서도 뛰어난 성능을 발휘할 수 있는 능력을 갖추고 있다. 또한, 발생하는 레이블 노이즈 문제를 체계적으로 정의하고, 이를 해결하기 위한 적응형 클립 선택(Adaptive Clip Selection, ACS) 프레임워크를 제안하였다. 이 두 요소가 결합되어 LIGAR 프레임워크는 일반 목적의 동작 인식 솔루션으로서의 가능성을 갖추게 되었다. 또한, 일반적인 동작 데이터셋과 제스처 데이터셋에 대한 광범위한 분석을 통해 기존 최고 수준의 솔루션들과 비교하여 성능과 정확도 사이에서 뛰어난 균형을 보임을 입증하였다. 학습 코드는 https://github.com/openvinotoolkit/training_extensions 에 공개되어 있으며, 엣지 중심의 효율적인 추론을 위해 모든 학습된 모델은 OpenVINO 형식으로 쉽게 내보낼 수 있다.

LIGAR: 경량형 일반 목적 동작 인식 | 최신 연구 논문 | HyperAI초신경