2달 전
그래프 컨볼루션은 트랜스포머의 셀프 어텐션을 풍부하게 합니다!
Choi, Jeongwhan ; Wi, Hyowon ; Kim, Jayoung ; Shin, Yehjin ; Lee, Kookjin ; Trask, Nathaniel ; Park, Noseong

초록
트랜스포머는 자기 주의 메커니즘으로 유명하며, 자연어 처리, 컴퓨터 비전, 시계열 모델링 등 다양한 분야에서 최고 수준의 성능을 달성하였습니다. 그러나 깊은 트랜스포머 모델의 한 가지 도전 과제는 레이어 간 표현이 구분할 수 없는 값으로 수렴하는 오버스무딩 문제입니다. 이 문제는 성능 저하를 크게 초래합니다. 우리는 원래의 자기 주의 메커니즘을 단순한 그래프 필터로 해석하고, 그래프 신호 처리(GSP) 관점에서 이를 재설계하였습니다. 그래프 필터 기반의 자기 주의(GFSA)를 제안하여 일반적이면서도 효과적인 방법을 학습하도록 하였습니다. GFSA의 복잡도는 원래의 자기 주의 메커니즘보다 약간 크지만, 컴퓨터 비전, 자연어 처리, 그래프 레벨 작업, 음성 인식 및 코드 분류 등 다양한 분야에서 트랜스포머의 성능 향상을 입증하였습니다.