17일 전

2D이거나 3D인가? 효율적인 영상 인식을 위한 적응형 3D 컨볼루션 선택

Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis
2D이거나 3D인가? 효율적인 영상 인식을 위한 적응형 3D 컨볼루션 선택
초록

3D 컨볼루션 네트워크는 영상 인식 분야에서 널리 사용되고 있다. 표준 벤치마크에서 뛰어난 인식 성능을 달성하지만, 프레임 시퀀스를 3D 컨볼루션으로 처리하기 때문에 계산량이 매우 크다는 단점이 있다. 다양한 영상 간 큰 차이를 활용하여, 각 입력 영상 클립에 맞는 3D 연산 사용 정책을 학습하는 조건부 계산 프레임워크인 Ada3D를 제안한다. 이 정책은 입력 영상 클립에 조건부로 작동하는 이중 헤드의 가벼운 선택 네트워크를 통해 도출되며, 선택 네트워크가 결정한 프레임과 컨볼루션 레이어만 3D 모델에서 사용되어 예측을 생성한다. 선택 네트워크는 제한된 계산 자원으로 정확한 예측을 유도하는 보상(리워드)을 최대화하도록 정책 그래디언트 방법으로 최적화된다. 세 가지 영상 인식 벤치마크에서 실험을 수행한 결과, 기존 최고 수준의 3D 모델과 유사한 정확도를 달성하면서도 다양한 데이터셋에서 계산량을 20%~50% 감소시킬 수 있음을 입증하였다. 또한, 학습된 정책이 타당하게 전이 가능하며, 다양한 백본 아키텍처 및 최신 클립 선택 기법과도 호환됨을 보였다. 정성적 분석 결과, 정적인 입력에는 더 적은 수의 3D 컨볼루션과 프레임을 사용하는 반면, 움직임이 강한 클립에는 더 많은 연산을 할당함을 확인하였다.

2D이거나 3D인가? 효율적인 영상 인식을 위한 적응형 3D 컨볼루션 선택 | 최신 연구 논문 | HyperAI초신경