MultiMAE: 다중 모달리티 다중 작업 마스킹 오토인코더

우리는 다중 모달리티와 다중 작업을 통합한 마스킹 자동부호화 기반의 사전 학습 전략인 Multi-modal Multi-task Masked Autoencoders(MultiMAE)를 제안한다. 이 방법은 기존의 마스킹 자동부호화(Masked Autoencoding)와 두 가지 핵심적인 차이점을 갖는다. 첫째, 입력에 RGB 이미지 외에도 추가적인 모달리티 정보를 선택적으로 수용할 수 있다(이를 ‘다중 모달리티’라 함). 둘째, 학습 목표가 RGB 이미지 외에도 여러 출력을 예측하도록 설정되어 있다(이를 ‘다중 작업’이라 함).MultiMAE의 학습을 실현 가능하게 하면서도, 네트워크가 서로 다른 모달리티 간의 예측 코딩을 진정으로 학습하도록 하기 위해, 이미지 패치와 입력 모달리티에 걸쳐 마스킹 기법을 활용한다. 본 연구에서는 이러한 사전 학습 전략이 하류 작업으로의 전이 성능을 향상시키며, 유연하고 간단하며 효율적인 프레임워크를 제공함을 보여준다. 특히, RGB 이미지 외에 추가 정보가 존재할 경우와 그렇지 않을 경우 모두 동일한 사전 학습된 네트워크를 유연하게 활용할 수 있으며, 모든 구성에서 기준 모델 대비 경쟁력 있는 또는 상당히 우수한 성능을 달성한다. 다중 모달리티 및 다중 작업을 포함하는 학습 데이터셋이 필요하지 않도록 하기 위해, MultiMAE는 완전히 가상 라벨링(pseudo labeling)을 이용해 학습되며, 이로 인해 RGB 데이터셋이라면 어떤 것이라도 널리 적용 가능한 프레임워크가 된다.실험은 다양한 전이 작업(이미지 분류, 세분할, 깊이 추정)과 데이터셋(ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2)을 대상으로 수행되었으며, 결과적으로 모델이 다중 모달리티 및 다중 작업에 걸친 예측 코딩과 전이 능력에서 놀랍도록 뛰어난 성능을 보임을 확인할 수 있었다.