2달 전

FineParser: 인간 중심 행동 품질 평가를 위한 세부 공간-시간 행동 분석기

Xu, Jinglin ; Yin, Sibo ; Zhao, Guohao ; Wang, Zishuo ; Peng, Yuxin
FineParser: 인간 중심 행동 품질 평가를 위한 세부 공간-시간 행동 분석기
초록

기존의 행동 품질 평가(AQA) 방법들은 주로 다양한 행동을 점수화하기 위해 비디오 수준에서 깊은 표현을 학습합니다. 비디오 내의 행동에 대한 세부적인 이해 부족으로 인해 이러한 방법들은 신뢰성과 해석성이 크게 떨어져, 올림픽 다이빙 경기와 같은 엄격한 응용 분야에서는 부적절합니다. 우리는 행동에 대한 세부적인 이해가 모델이 시간과 공간 모두에서 행동을 인식하고 분석하는 것을 필요로 하며, 이는 AQA 기술의 신뢰성과 해석성을 보장하는 열쇠임을 주장합니다. 이러한 통찰력을 바탕으로, 우리는 \textbf{FineParser}라는 새로운 세부적인 시공간 행동 파서를 제안합니다. FineParser는 각 프레임 내의 목표 행동 영역에 초점을 맞추고, 시간과 공간에서의 세부적인 정렬을 활용하여 평가 과정에서 무효한 배경의 영향을 최소화하면서 인간 중심의 전경 행동 표현을 학습합니다. 또한, 우리는 \textbf{FineDiving-HM}이라는 이름으로 FineDiving 데이터셋에 대한 인간 중심의 전경 행동 마스크의 세부 주석을 구축하였습니다. 다양한 목표 행동 절차에 대한 정교한 주석 덕분에, FineDiving-HM은 실제 세계 AQA 시스템들의 발전을 촉진할 수 있습니다. 광범위한 실험을 통해 우리는 FineParser의 효과성을 입증하였으며, 이는 최신 방법들을 능가하면서도 더 많은 세부적인 행동 이해 작업들을 지원합니다. 데이터와 코드는 \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024}에서 제공됩니다.