
우리는 순차 데이터 모델링을 위한 새로운 접근 방식인 딥 균형 모델(Deep Equilibrium Model, DEQ)을 제시합니다. 기존의 많은 딥 시퀀스 모델의 은닉층이 특정 고정점으로 수렴한다는 관찰에 착안하여, 우리는 이 균형점을 루트 찾기(root-finding)를 통해 직접 찾아내는 DEQ 접근 방식을 제안합니다. 이러한 방법은 무한한 깊이(가중치 공유) 피드포워드 네트워크를 실행하는 것과 동일하지만, 암시적 미분(implicit differentiation)을 사용하여 균형점에서 역전파(backpropagation)를 해석적으로 수행할 수 있다는 주목할 만한 장점이 있습니다. 이 접근 방식을 사용하면, 네트워크의 효과적인 "깊이"와 상관없이 학습과 예측에 필요한 메모리가 일정하게 유지됩니다. 우리는 DEQ가 최신의 두 가지 딥 시퀀스 모델인 자기 어텐션 트랜스포머(self-attention transformers)와 트렐리스 네트워크(trellis networks)에 어떻게 적용될 수 있는지를 보여줍니다. 대규모 언어 모델링 작업, 예를 들어 WikiText-103 벤치마크에서, DEQ는 1) 유사한 매개변수 개수로도 이 최신 모델들보다 성능을 향상시키는 경우가 많으며; 2) 기존 모델들과 비슷한 계산 요구 사항을 가지고 있으며; 3) 메모리 소비를 크게 줄여서 (대형 시퀀스 모델 학습의 주요 병목 요인이 종종 됨), 실험에서 최대 88%의 메모리 감소를 입증하였습니다. 코드는 https://github.com/locuslab/deq 에서 제공됩니다.