8일 전

MMTM: CNN 병합을 위한 다중모달 전이 모듈

Hamid Reza Vaezi Joze, Amirreza Shaban, Michael L. Iuzzolino, Kazuhito Koishida
MMTM: CNN 병합을 위한 다중모달 전이 모듈
초록

후방 융합(flate fusion)에서는 각 모달리티가 별도의 단모달 컨볼루션 신경망(CNN) 스트림에서 처리되며, 각 모달리티의 점수는 최종적으로 융합된다. 간단한 구조를 가지므로 후방 융합은 여전히 많은 최첨단 다모달 응용 분야에서 주로 사용되는 접근 방식이다. 본 논문에서는 컨볼루션 신경망 내에서 다수의 모달리티 지식을 효과적으로 활용할 수 있는 간단한 신경망 모듈을 제안한다. 제안된 단위는 다모달 전이 모듈(Multimodal Transfer Module, MMTM)이라 명명하였으며, 특징 계층의 다양한 수준에 삽입 가능하여 느린 모달리티 융합을 가능하게 한다. MMTM은 스퀴즈 앤 엑사이테이션(squeeze and excitation) 연산을 활용하여 각 CNN 스트림의 채널별 특징을 재조정하는 데 다모달 지식을 활용한다. 다른 중간 융합 방법들과 달리, 제안된 모듈은 공간 차원이 서로 다른 컨볼루션 층에서도 특징 모달리티 융합에 적용할 수 있다. 또한 본 방법의 또 다른 장점은 단모달 브랜치 간에 최소한의 네트워크 아키텍처 수정만으로도 모듈을 삽입할 수 있으며, 각 브랜치가 기존에 학습된 가중치(pretrained weights)로 초기화될 수 있다는 점이다. 실험 결과, 제안하는 프레임워크가 잘 알려진 다모달 네트워크의 인식 정확도를 향상시킴을 입증하였다. RGB 이미지와 신체 관절 정보를 기반으로 하는 동적 손짓 인식, 음성 강화, 동작 인식 등 다양한 작업 영역을 아우르는 네 가지 데이터셋에서 최신 기술 수준 또는 경쟁 가능한 성능을 달성하였다.