17일 전

선형 경쟁 단위를 갖는 확률적 트랜스포머 네트워크: 엔드투엔드 SL 번역에의 응용

Andreas Voskou, Konstantinos P. Panousis, Dimitrios Kosmopoulos, Dimitris N. Metaxas, Sotirios Chatzis
선형 경쟁 단위를 갖는 확률적 트랜스포머 네트워크: 엔드투엔드 SL 번역에의 응용
초록

시그니처 언어 번역(SLT) 자동화는 도전적인 실세계 응용 과제이다. 사회적으로 중요한 분야임에도 불구하고, 이 분야의 연구 진전은 여전히 미흡한 편이다. 특히 기존의 성능이 우수한 방법들은 수집이 매우 번거로운 글로스 시퀀스 지표(groundtruth)를 필요로 한다. 본 논문에서는 이러한 필요성을 완화하기 위해, 명시적인 글로스 사용 없이도 작동하는 엔드투엔드 SLT 모델을 제안한다. 이 모델은 학습 시 글로스를 사용하지 않고, 텍스트 지표만 필요로 한다. 기존의 엔드투엔드 모델들이 중간 모델 단계에서 인식되는 모달리티 형태 또는 SLT 모델과 공동 학습되는 병렬 출력 과정 형태로 글로스 시퀀스 지표를 사용하는 것과는 극명한 대조를 이룬다. 제안하는 접근법은 다음과 같은 새로운 유형의 레이어를 포함하는 트랜스포머 네트워크로 구성된다: (i) 전통적인 ReLU 레이어 대신 로컬 윈너테이크올(LWTA) 레이어와 확률적 윈너 샘플링을 결합한 구조, (ii) 변분 추론을 통해 추정된 사후 분포를 기반으로 하는 확률적 가중치, (iii) 추정된 사후 분산을 활용하여 추론 시에 대량의 거의 손실 없는 압축을 수행하는 가중치 압축 기법. 실험을 통해 제안한 방법이 PHOENIX 2014T 벤치마크에서 현재까지 보고된 최고 수준의 BLEU-4 점수에 도달할 수 있음을 입증하였으며, 모델 학습 시 글로스를 전혀 사용하지 않음에도 불구하고 메모리 사용량은 70% 이상 감소함을 확인하였다.