11일 전
유연한 다중 작업 네트워크: 파라미터 할당 학습을 통한 구현
Krzysztof Maziarz, Efi Kokiopoulou, Andrea Gesmundo, Luciano Sbaiz, Gabor Bartok, Jesse Berent

초록
본 논문은 다중 작업(multi-task) 응용을 위한 새로운 학습 방법을 제안한다. 다중 작업 신경망은 파라미터 공유를 통해 서로 다른 작업 간 지식 전이를 학습할 수 있다. 그러나 관련 없는 작업 간에 파라미터를 공유하게 되면 성능 저하가 발생할 수 있다. 이러한 문제를 해결하기 위해, 세밀한 수준의 파라미터 공유 패턴을 학습할 수 있는 프레임워크를 제안한다. 네트워크가 여러 층에 걸쳐 다양한 구성 요소로 이루어져 있다고 가정할 때, 본 프레임워크는 학습된 이진 변수를 사용하여 각 구성 요소를 작업에 할당함으로써 관련된 작업 간에는 더 많은 파라미터 공유를 장려하고, 그렇지 않은 경우는 공유를 억제하도록 한다. 이 이진 할당 변수들은 Gumbel-Softmax 재매개변수화 방법을 통해 표준 역전파(back-propagation) 알고리즘을 이용해 모델 파라미터와 함께 공동으로 학습된다. Omniglot 벤치마크에 적용한 결과, 제안하는 방법은 기존 최고 성능 기법 대비 오류율을 17% 상대적으로 감소시켰다.