2달 전

ユニバーサルトランスフォーマー 注意:这里的翻译是日文,而非韩文。正确的韩文翻译如下: 유니버설 트랜스포머

Dehghani, Mostafa ; Gouws, Stephan ; Vinyals, Oriol ; Uszkoreit, Jakob ; Kaiser, Łukasz
ユニバーサルトランスフォーマー
注意:这里的翻译是日文,而非韩文。正确的韩文翻译如下:
유니버설 트랜스포머
초록

순환 신경망(RNNs)은 각 새로운 데이터 포인트로 상태를 업데이트하여 순차적으로 데이터를 처리하며, 오랫동안 시퀀스 모델링 작업의 사실상의 선택이었습니다. 그러나 그들의 본질적인 순차적 계산은 훈련 속도를 느리게 만듭니다. 최근에는 피드포워드 및 컨볼루션 아키텍처가 기계 번역과 같은 일부 시퀀스 모델링 작업에서 우수한 결과를 달성하였으며, 이는 시퀀스 내 모든 입력을 동시에 처리할 수 있다는 장점으로 인해 쉽게 병렬화되고 빠른 훈련 시간을 제공합니다. 이러한 성공에도 불구하고, 트랜스포머와 같은 인기 있는 피드포워드 시퀀스 모델은 재발 모델이 쉽게 처리하는 많은 단순 작업에서 일반화에 실패합니다. 예를 들어, 훈련 시간 동안 관찰된 길이보다 긴 문자열이나 공식의 복사나 간단한 논리 추론 등입니다. 우리는 이러한 문제들을 해결하고 트랜스포머 모델의 일반화로 해석될 수 있는 시간 병렬 자기 주의 순환 시퀀스 모델인 Universal Transformer(UT)를 제안합니다. UT는 트랜스포머와 같은 피드포워드 시퀀스 모델의 병렬화 가능성과 전역 수용 영역(global receptive field)을 RNN의 순환 귀납 편향(recurrent inductive bias)과 결합합니다. 또한 위치별 동적 중지 메커니즘을 추가하여 여러 작업에서 정확도가 개선되는 것을 확인하였습니다. 표준 트랜스포머와 달리 특정 가정 하에서는 UT가 튜링 완전(Turing-complete)임을 증명할 수 있습니다. 우리의 실험 결과는 UT가 알고리즘 및 언어 이해 작업 범위에서 표준 트랜스포머보다 우수한 성능을 보였으며, 특히 어려운 LAMBADA 언어 모델링 작업에서 새로운 최고 성능(new state of the art)을 달성하였습니다. 또한 WMT14 En-De 데이터셋에서 기계 번역 작업에서 0.9 BLEU 점수 개선을 이루었습니다.

ユニバーサルトランスフォーマー 注意:这里的翻译是日文,而非韩文。正确的韩文翻译如下: 유니버설 트랜스포머 | 최신 연구 논문 | HyperAI초신경