17일 전

딥 멀티모달 뉴럴 아키텍처 서치

Zhou Yu, Yuhao Cui, Jun Yu, Meng Wang, Dacheng Tao, Qi Tian
딥 멀티모달 뉴럴 아키텍처 서치
초록

효율적인 신경망 설계는 딥 다중모달 학습에서 근본적으로 중요한 과제이다. 기존의 대부분의 연구는 단일 작업에 집중하며 수작업으로 신경망 아키텍처를 설계하는데, 이러한 접근 방식은 매우 작업 특화되어 있어 다른 작업으로의 일반화가 어렵다. 본 논문에서는 다양한 다중모달 학습 작업에 적용 가능한 일반화된 딥 다중모달 신경망 구조 탐색(MMnas) 프레임워크를 제안한다. 다중모달 입력을 받은 후, 먼저 기본 연산(primitive operations)의 집합을 정의하고, 이를 바탕으로 깊이 있는 인코더-디코더 기반의 통합 백본(unified backbone)을 구성한다. 이 백본에서는 각 인코더 또는 디코더 블록이 미리 정의된 연산 풀에서 탐색된 연산에 대응한다. 통합 백본 위에 작업별 특화된 헤드를 부착하여 다양한 다중모달 학습 작업을 해결한다. 그라디언트 기반의 NAS(Neural Architecture Search) 알고리즘을 활용함으로써, 각 작업에 최적화된 아키텍처를 효율적으로 학습할 수 있다. 광범위한 아블레이션 연구, 체계적인 분석 및 비교 실험 결과를 통해, 제안한 MMnasNet이 시각 질문 응답(visual question answering), 이미지-텍스트 매칭(image-text matching), 시각적 기반(visual grounding) 등 세 가지 주요 다중모달 학습 작업(다섯 개 이상의 데이터셋에서)에서 기존 최첨단 기법들을 상회하는 성능을 보임을 입증하였다.