2달 전

시퀀스 모델링을 위한 트렐리스 네트워크

Shaojie Bai; J. Zico Kolter; Vladlen Koltun
시퀀스 모델링을 위한 트렐리스 네트워크
초록

우리는 시퀀스 모델링을 위한 새로운 아키텍처인 트렐리스 네트워크를 제시합니다. 한편으로, 트렐리스 네트워크는 깊이에 걸쳐 가중치가 공유되고 입력이 깊은 층에 직접 주입되는 특성을 가진 시간적 컨볼루션 네트워크입니다. 다른 한편으로, 우리는 절단된 순환 네트워크가 가중치 행렬에서 특수한 희소 구조를 가진 트렐리스 네트워크와 동일하다는 것을 보여줍니다. 따라서 일반적인 가중치 행렬을 갖는 트렐리스 네트워크는 절단된 순환 네트워크를 일반화합니다. 이러한 연결성을 활용하여 재구조화 및 알고리즘 요소를 순환 모델과 컨볼루션 모델 모두에서 흡수하는 성능이 뛰어난 트렐리스 네트워크를 설계하였습니다. 실험 결과, 트렐리스 네트워크가 단어 수준 언어 모델링과 문자 수준 언어 모델링 작업 등 다양한 어려운 벤치마크에서 기존 최신 방법들을 능가하며, 장기 기억 유지 능력을 평가하기 위해 설계된 스트레스 테스트에서도 우수한 성능을 보임을 입증하였습니다. 코드는 https://github.com/locuslab/trellisnet 에서 제공됩니다.