DyTox: 지속 학습을 위한 동적 토큰 확장 기반 트랜스포머

딥 네트워크 아키텍처는 이전 작업들을 잊지 않고 지속적으로 새로운 작업을 학습하는 데 어려움을 겪는다. 최근의 추세는 파라미터 확장 기반의 동적 아키텍처가 지속적 학습에서 치명적인 망각(catastrophic forgetting)을 효과적으로 줄일 수 있다는 점을 보여주고 있다. 그러나 기존의 접근 방식은 테스트 시점에 작업 식별자(task identifier)를 필요로 하며, 증가하는 파라미터 수를 균형 있게 조절하기 위해 복잡한 튜닝이 필요하고, 작업 간 정보 공유가 거의 이루어지지 않는다는 단점이 있다. 그 결과, 상당한 오버헤드 없이 많은 수의 작업에 확장하기 어려운 문제가 있다. 본 논문에서는 전용 인코더/디코더 프레임워크 기반의 트랜스포머 아키텍처를 제안한다. 특히, 인코더와 디코더는 모든 작업에 공유된다. 특수 토큰(special tokens)의 동적 확장을 통해 디코더 네트워크의 각 전방 계산(forward)을 특정 작업 분포에 특화시킨다. 이 전략은 파라미터 확장에 엄격한 제어를 통해 대규모 작업에 대해 확장 가능하면서도 메모리 및 시간 오버헤드가 거의 없는 특징을 지닌다. 더불어, 네트워크 확장을 제어하기 위한 하이퍼파라미터 튜닝이 전혀 필요하지 않은 효율적인 방법이다. 제안된 모델은 CIFAR100에서 우수한 성능을 달성하였으며, 대규모 ImageNet100 및 ImageNet1000에서는 동시대의 동적 프레임워크보다 적은 파라미터 수로 최신 기준(SOTA, state-of-the-art) 성능을 기록하였다.