조건부 적응형 다중 작업 학습: 더 적은 파라미터와 더 적은 데이터를 사용하여 NLP에서 전이 학습 개선하기

다중 작업 학습(Multi-Task Learning, MTL) 네트워크는 다양한 작업 간에 학습된 지식을 전이하는 데 있어 유망한 방법으로 부상하고 있다. 그러나 MTL는 저자원 작업에 대한 과적합, 치명적인 기억 상실, 부정적 작업 전이 또는 학습 간섭 등의 도전 과제를 해결해야 한다. 자연어 처리(NLP) 분야에서는 최고의 성능을 얻기 위해 일반적으로 각 작업마다 별도의 모델을 필요로 한다. 그러나 많은 미세조정(fine-tuning) 접근법은 파라미터 효율성이 낮으며, 작업당 하나의 새로운 모델을 사용할 가능성이 높고, 사전학습 과정에서 습득한 지식을 쉽게 잃는다는 점에서 취약하다. 본 연구에서는 새로운 조건부 어텐션 메커니즘과 작업 조건부 모듈의 조합을 통해 가중치 공유를 촉진하는 새로운 트랜스포머 아키텍처를 제안한다. 이러한 구조(하이퍼네트워크 어댑터)를 통해 사전학습된 모델의 절반의 가중치를 고정함으로써 더 효율적인 파라미터 공유를 실현하고, 기억 상실을 완화한다. 또한 작업 간 데이터 불균형의 부정적 영향을 완화하기 위해 새로운 다중 작업 데이터 샘플링 전략을 도입한다. 본 방법을 통해 단일 작업 미세조정 방법을 초월하면서도 파라미터 및 데이터 효율성을 유지할 수 있다(가중치 업데이트에 약 66%의 데이터만 사용). GLUE 벤치마크에서 다른 BERT Large 기반 방법들과 비교하여, 8개 작업 모델은 다른 어댑터 기반 방법보다 2.8% 높은 성능을, 24개 작업 모델은 MTL과 단일 작업 미세조정을 사용한 모델들보다 0.7~1.0% 높은 성능을 기록한다. 또한 본 연구에서 제안하는 단일 다중 작업 모델의 확장형은 26개의 NLP 작업에서 경쟁력 있는 성능을 보이며, 여러 테스트 및 개발 세트에서 최상의 성과를 달성한다. 본 연구의 코드는 공개되어 있으며, https://github.com/CAMTL/CA-MTL 에서 확인할 수 있다.