차동 변압기
차동 변압기(Differential Transformer, 줄여서 Diff Transformer)는 Microsoft Research와 Tsinghua University가 2024년에 공동으로 제안한 새로운 변압기 아키텍처입니다. 관련 논문 결과는 다음과 같습니다.차동 변압기", 4명의 공동 저자: Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun. 이 아키텍처의 핵심은 차등적 주의 메커니즘에 있습니다. 이는 기존 트랜스포머가 긴 텍스트를 처리할 때 핵심 정보를 정확하게 검색하는 데 어려움을 겪는, 소위 "중간 정보 손실" 현상이라는 문제를 해결하는 것을 목표로 합니다.
Diff Transformer는 두 개의 독립적인 소프트맥스 어텐션 맵을 계산한 다음 그 차이를 구해 최종 어텐션 점수를 구합니다. 이 방법을 사용하면 주의 잡음을 효과적으로 제거하고 모델이 입력의 가장 관련성 있는 부분에 더 많은 주의를 기울이도록 할 수 있습니다. 이 메커니즘은 두 신호의 차이를 이용하여 소음을 제거하는 전기공학의 소음 제거 헤드폰과 차동 증폭기와 유사합니다.
실험 결과에 따르면, 다양한 설정에서 Diff Transformer가 기존 Transformer보다 언어 모델링 작업에서 더 나은 성능을 보였습니다. 모델 크기와 학습 토큰 수 측면에서 확장성이 뛰어날 뿐만 아니라, 장기 컨텍스트 모델링, 핵심 정보 검색, 환각 완화, 맥락적 학습과 같은 실용적 응용 분야에서도 상당한 이점을 보여줍니다. 또한, Diff Transformer는 모델 활성화 값의 이상치를 효과적으로 줄이고, 모델 양자화에 더 친화적이며, 모델 효율성을 개선합니다.
Diff Transformer의 도입은 대규모 언어 모델 개발을 위한 새로운 아이디어를 제공하며 지능형 대화 시스템, 텍스트 생성, 데이터 추출 등 여러 분야에서 중요한 역할을 할 것으로 기대됩니다.