9일 전

싱글 헤드 어텐션 RNN: 머리로 생각하는 것을 멈추어라

Stephen Merity
싱글 헤드 어텐션 RNN: 머리로 생각하는 것을 멈추어라
초록

언어 모델링 분야의 주류 접근 방식들은 모두 나의 청소년 시절의 TV 프로그램에 빠져 있다—바로 ‘트랜스포머(Transformer)’와 ‘세사미 스트리트(Sesame Street)’다. 트랜스포머 이거, 트랜스포머 저거, 그리고 여기엔 GPU-TPU-뉴로모픽 웨이퍼 스케일 실리콘으로 구성된 거대한 벽난로 같은 시스템이 있다. 우리는 그저 오래되고 검증된 기법을 게을리하지 않고, 마치 암호화 기술에서 영감을 받은 화려한 약어를 붙인 길을 택했다: 단일 헤드 어텐션 RNN(SHA-RNN). 저자의 유일한 목적은, 우리가 만약 약간 다른 약어와 약간 다른 결과에 집착했다면, 전체 분야가 지금과는 완전히 다른 방향으로 발전했을 수도 있다는 점을 보여주는 것이다. 우리는 기존에 단순한 LSTM으로만 구성된 강력한 언어 모델을 활용해, enwik8 데이터셋에서 최신의 바이트 수준 언어 모델 성능에 거의 근접하는 결과를 도출했다. 본 연구는 철저한 하이퍼파라미터 최적화를 거치지 않았으며, 저자가 샌프란시스코 여름철에 작은 스튜디오 아파트를 너무 뜨겁게 만들었던 일반적인 데스크톱 컴퓨터에서만 수행되었다. 최종 결과는 저자가 인내심이 없어 단일 GPU에서 약 24시간 이내에 도달할 수 있다. 또한 어텐션 메커니즘은 거의 추가 계산 없이도 대규모 컨텍스트로 쉽게 확장 가능하다. 자, 그럼 세사미 스트리트도 빛을 발라보라.