16일 전

Flowformer: 보존 흐름을 활용한 트랜스포머의 선형화

Haixu Wu, Jialong Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long
Flowformer: 보존 흐름을 활용한 트랜스포머의 선형화
초록

어텐션 메커니즘을 기반으로 한 트랜스포머는 다양한 분야에서 놀라운 성과를 거두었다. 그러나 어텐션 메커니즘은 이차 복잡도를 가지며, 이는 트랜스포머가 수많은 토큰을 처리하거나 더 큰 모델로 확장하는 데 있어 중대한 제약을 초래한다. 기존의 방법들은 주로 행렬 곱셈의 유사성 분해와 결합법칙을 활용하여 선형 시간 복잡도의 어텐션 메커니즘을 설계해 왔다. 이러한 접근은 국소성(locality)과 같은 유도적 편향(inductive biases)을 재도입함으로써 어텐션의 단순화(degeneration)를 방지하지만, 모델의 일반성과 표현력을 희생하는 결과를 초래한다. 본 논문에서는 유량 네트워크 이론(flow network theory)을 기반으로 특정 유도적 편향 없이 트랜스포머를 선형화하는 새로운 접근을 제안한다. 우리는 어텐션을 학습된 유량 용량(attentions, 즉 유량)을 통해 소스(값, values)에서 싱크(result, sink)로 전달되는 정보 흐름의 집계로 재정의한다. 이러한 프레임워크 내에서, 유량 보존 법칙(flow conservation)의 성질을 어텐션에 적용하여 선형 복잡도를 갖는 '플로우 어텐션(Flow-Attention)' 메커니즘을 제안한다. 플로우 어텐션은 소스 간 경쟁을 위한 싱크의 도착 유량 보존과 싱크 할당을 위한 소스의 출발 유량 보존을 각각 유지함으로써, 특정 유도적 편향 없이도 정보가 풍부한 어텐션을 자연스럽게 생성한다. 플로우 어텐션을 기반으로 한 플로우포머(Flownformer)는 긴 시계열, 시계열 데이터, 비전, 자연어 처리, 강화 학습 등 다양한 영역에서 선형 시간 내에 뛰어난 성능을 발휘한다. 코드와 실험 설정은 다음 저장소에서 공개되어 있다: https://github.com/thuml/Flowformer.

Flowformer: 보존 흐름을 활용한 트랜스포머의 선형화 | 최신 연구 논문 | HyperAI초신경