17일 전

다중모달 및 다중작업 밀도 이미지 예측을 위한 채널 교환 네트워크

Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao
다중모달 및 다중작업 밀도 이미지 예측을 위한 채널 교환 네트워크
초록

다중 모달 융합(multimodal fusion)과 다중 작업 학습(multitask learning)은 머신러닝 분야에서 핵심적인 주제들이다. 비록 이러한 분야에서 풍부한 진전이 이루어졌지만, 두 문제 모두 여전히 동일한 도전 과제에 취약하다. 즉, 다양한 모달 간(또는 작업 간)의 공통 정보를 통합하면서도 각 모달(또는 작업) 고유의 패턴을 유지하는 것이 여전히 어려운 딜레마 상황에 놓여 있다. 게다가 이 두 개념은 실제로 서로 밀접하게 관련되어 있음에도 불구하고, 이전까지는 동일한 방법론적 틀 안에서 함께 탐구된 경우는 드물었다. 본 논문에서는 자기 적응형(self-adaptive), 파라미터 불필요(parameter-free), 그리고 무엇보다도 다중 모달 및 다중 작업 밀도 높은 이미지 예측에 적용 가능한 채널 교환 네트워크(Channel-Exchanging-Network, CEN)를 제안한다. CEN의 핵심은 서로 다른 모달의 하위 네트워크 간에 채널을 적응적으로 교환하는 것이다. 구체적으로, 채널 교환 과정은 학습 중 배치 정규화(Batch-Normalization, BN) 스케일링 인자 크기를 기반으로 측정된 개별 채널의 중요도에 의해 자기 주도적으로 안내된다. 밀도 높은 이미지 예측에의 응용을 위해, CEN의 타당성은 네 가지 다른 시나리오를 통해 검증되었다: 다중 모달 융합, 사이클 다중 모달 융합, 다중 작업 학습, 그리고 다중 모달 다중 작업 학습. RGB-D 데이터를 통한 세분성 분할(semantic segmentation) 및 다중 도메인 입력을 통한 이미지 번역(image translation)을 대상으로 한 광범위한 실험을 통해, CEN이 최신 기술 대비 우수한 성능을 보임을 입증하였다. 또한 각 제안된 구성 요소의 효과를 입증하기 위해 철저한 아블레이션(Ablation) 연구도 수행되었다. 본 연구의 코드는 https://github.com/yikaiw/CEN 에 공개되어 있다.

다중모달 및 다중작업 밀도 이미지 예측을 위한 채널 교환 네트워크 | 최신 연구 논문 | HyperAI초신경