다중 모달 센서(시각적, 비시각적, 웨어러블)는 인간의 활동을 정확하게 인식하기 위한 강력한 인지 시스템을 개발하는 데 보완적인 정보를 제공할 수 있다. 그러나 다양한 모달 센서에서 발생하는 데이터의 이질성과 인간 활동의 다양성, 특히 노이즈가 많고 시간이 일치하지 않는 센서 데이터가 존재하는 환경에서는 강건한 다중 모달 표현을 추출하는 것이 매우 어렵다. 본 연구에서는 인간 활동 인식(Human Activity Recognition, HAR)을 위한 강건한 다중 모달 표현을 추출하기 위해, 협업적 다중 작업 학습 기반의 지도형 다중 모달 융합 접근법인 MuMu을 제안한다. MuMu는 공통된 특성을 지닌 활동 그룹(activity-group)에 특화된 특징을 추출하기 위해 보조 작업 학습 기법을 활용한다. 이후 MuMu는 활동 그룹별 특징을 활용하여 제안한 지도형 다중 모달 융합 방법(GM-Fusion)을 적용하여 보완적인 다중 모달 표현을 추출하는 목표 작업을 수행한다. 우리는 세 가지 활동 데이터셋에서 최첨단 다중 모달 HAR 기법들과의 비교를 통해 MuMu의 성능을 평가하였다. 광범위한 실험 결과에 따르면, MuMu는 모든 세 가지 데이터셋에서 평가된 모든 기법들을 상회하는 성능을 보였다. 또한, 제거 실험(ablation study) 결과는 MuMu가 지도형 다중 모달 융합을 사용하지 않는 기준 모델보다 유의미하게 뛰어난 성능을 보이며(p<0.05), 제안된 접근법의 효과를 입증하였다. 마지막으로, MuMu가 노이즈가 많고 시간이 일치하지 않는 센서 데이터에서도 강건한 성능을 보인 점은, 본 연구의 접근법이 실제 환경에서의 HAR에 적합함을 시사한다.