한 달 전
단일 모달 동적 손동작 인식의 성능 향상을 위한 다중 모달 학습
Mahdi Abavisani; Hamid Reza Vaezi Joze; Vishal M. Patel

초록
다이나믹 핸드 제스처 인식 작업을 위해 단일 모달 3차원 컨볼루션 신경망(3D-CNNs)을 훈련시키는 과정에서 여러 모달로부터 지식을 활용하기 위한 효율적인 접근 방식을 제시합니다. 많은 최신 방법에서 다중모달 정보를 명시적으로 결합하는 것과 달리, 우리는 각각의 단일 모달 네트워크가 성능 향상을 이룰 수 있도록 여러 모달의 지식을 개별 네트워크에 내재시키는 다른 프레임워크를 제안합니다. 특히, 사용 가능한 각 모달에 대해 별도의 네트워크를 할당하고, 이를 협력하도록 강제하여 공통 의미와 더 나은 표현을 갖춘 네트워크를 개발하도록 학습시킵니다. 우리는 서로 다른 네트워크에서 추출된 특징들의 내용을 일치시키기 위해 "공간-시간 의미 정렬" 손실(SSA)을 도입합니다. 또한, 부정적인 지식 전이를 피하기 위해 우리가 제안한 "포칼 정규화 매개변수"로 이 손실을 규제합니다. 실험 결과, 우리의 프레임워크는 단일 모달 네트워크의 테스트 시간 인식 정확도를 향상시키며, 다양한 다이나믹 핸드 제스처 인식 데이터셋에서 최고 수준의 성능을 제공함을 보여줍니다.