
초록
다양한 계층에서 단일 네트워크 내에서 다중 모달 특징을 융합하기 위한 컴팩트하고 효과적인 프레임워크를 제안한다. 이 프레임워크는 두 가지 혁신적인 융합 방식으로 구성된다. 첫째, 기존의 다중 모달 방법이 각 모달에 대해 별도의 인코더를 필요로 하는 반면, 본 연구에서는 인코더 내에서 모달 특수(batch normalization) 레이어만 유지함으로써 단일 공유 네트워크 내에서 다중 모달 특징을 학습할 수 있음을 검증하였다. 이는 공동 특징 표현 학습을 통해 암묵적인 융합을 가능하게 한다. 둘째, 다중 계층에 걸쳐 다중 모달 특징을 점진적으로 활용할 수 있는 양방향 다중 계층 융합 방식을 제안한다. 이러한 방식을 효과적으로 활용하기 위해 채널 셔플(channel shuffle)과 픽셀 시프트(pixe shift)를 포함한 두 가지 비대칭 융합 연산을 도입하였다. 이 연산들은 서로 다른 융합 방향에 대해 서로 다른 융합 특징을 학습할 수 있도록 하며, 파라미터가 필요 없고, 채널 간의 다중 모달 특징 상호작용을 강화하며, 채널 내에서의 공간적 특징 구분력을 향상시킨다. 본 연구에서는 다양한 모달을 포함하는 세 가지 공개 데이터셋을 기반으로 세분화 및 이미지 번역 작업에 대해 광범위한 실험을 수행하였다. 실험 결과, 제안하는 프레임워크가 일반화 능력이 뛰어나며, 기존 최고 수준의 융합 프레임워크보다 우수함을 입증하였다.