9일 전

정확한 그리드 키포인트 학습을 통한 효율적인 비디오 예측

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
정확한 그리드 키포인트 학습을 통한 효율적인 비디오 예측
초록

영상 예측 방법은 일반적으로 학습 및 배포 과정에서 막대한 계산 자원을 소비하는 경향이 있으며, 그 중에서도 키포인트 기반 접근법은 밀도 높은 이미지 예측을 가벼운 키포인트 예측으로 단순화함으로써 효율성 측면에서 유망한 성과를 보여주고 있다. 그러나 기존의 키포인트 위치 모델링은 주로 연속적인 좌표로만 표현되기 때문에, 영상 내 의미 없는 세부적인 변동에 의해 발생하는 노이즈가 학습 안정성을 쉽게 저해하여 정확한 키포인트 모델링을 방해하는 문제가 존재한다. 본 논문에서는 장기적인 효율적인 영상 예측을 위한 강건하고 해석 가능한 중간 키포인트 표현을 구현하기 위해 새로운 격자 기반 키포인트 학습 프레임워크를 설계하였다. 본 연구는 두 가지 주요 기술적 기여를 한다. 첫째, 제안한 격자 공간 내 후보 위치 간 점프 방식을 활용하여 키포인트를 탐지하고, 강한 대표성 능력을 지닌 의미 있는 키포인트를 유도하기 위해 응집 손실(consolidation loss)을 정의하였다. 둘째, 탐지된 격자 기반 키포인트를 2차원 이진 맵으로 표현하고, 이산적인 격자 공간 내에서 요소를 무작위로 선택함으로써 키포인트 위치를 확률적으로 전파하는 방식을 제안함으로써, 장기적인 예측 수평선에서 키포인트의 공간 구조를 유지함으로써 미래 프레임 생성 품질을 향상시켰다. 광범위한 실험을 통해 제안한 방법이 최신의 확률적 영상 예측 방법들을 능가하면서도 계산 자원을 98% 이상 절감함을 입증하였다. 또한, 로봇 보조 수술 데이터셋을 활용한 실험을 통해 본 방법의 실용성과 유망성을 추가로 입증하였다. 코드는 다음 URL에서 공개되어 있다: https://github.com/xjgaocs/Grid-Keypoint-Learning.