Transformer의 핵심 기술: 자기주의 주의(self-attention)가 바꾼 시퀀스 모델링의 미래
트랜스포머는 시퀀스 모델링에서 획기적인 진보를 이룬 아키텍처로, 기존의 순환 신경망(RNN)이 직면한 장기 의존성 문제를 해결했다. 핵심은 '자기주의(Attention)' 기법으로, 각 토큰이 입력 전체에서 다른 토큰과의 관계를 직접 평가할 수 있게 한다. 예를 들어 "그것은 두려워했다"에서 "그것"이 누구를 가리키는지 판단할 때, 모델은 "두려움"이라는 맥락을 바탕으로 "쥐"와 연결한다. 이를 위해 각 토큰은 쿼리(Q), 키(K), 값(V) 세 가지 벡터로 분리되며, Q와 K의 내적을 통해 유사도를 계산하고, 이를 스케일링한 후 소프트맥스로 정규화해 가중치를 도출한 후, V에 가중치를 적용해 새로운 표현을 생성한다. 이 과정은 병렬 처리가 가능해 훈련 속도가 빠르며, 장거리 의존성 문제를 해결한다. 더 깊은 레이어로 갈수록 모델은 문법적 관계에서부터 핵심 공통체 인식까지 복잡한 의미 구조를 학습한다. BERTViz를 활용한 시각화에서는 초기 레이어에서 주어-서술어 관계가, 후반 레이어에서는 공통체 해결 등 고차원 이해가 나타난다. 트랜스포머는 RNN의 순차적 처리를 완전히 제거하고, 모든 토큰이 동시에 다른 토큰에 주목할 수 있도록 했다. 훈련은 다음 토큰 예측을 목표로 하며, 교차 엔트로피 손실을 통해 가중치가 조정된다. 이 구조는 병렬성, 전이 학습 가능성, 확장성 측면에서 뛰어나, 파라미터 증가에 따라 성능이 지속적으로 향상된다. 그러나 인퍼런스 시에는 여전히 순차적 처리가 필요해 속도 제약이 있으며, 오류가 누적되고, 생성 텍스트의 다양성이 제한된다. 이는 온전한 인공지능의 실현을 위한 여전한 도전 과제다.