17일 전
DeBiFormer: 변형 가능한 에이전트 이중 수준 라우팅 어텐션을 갖춘 비전 트랜스포머
Nguyen Huu Bao Long, Chenyu Zhang, Yuzhi Shi, Tsubasa Hirakawa, Takayoshi Yamashita, Tohgoroh Matsui, Hironobu Fujiyoshi

초록
다양한 어텐션 모듈을 갖춘 비전 트랜스포머는 비전 작업에서 뛰어난 성능을 보여왔다. DAT와 같이 스파스성 적응형 어텐션을 활용할 경우 이미지 분류 작업에서 우수한 결과를 얻을 수 있으나, 세분화 작업에서의 미세조정 시 변형 가능한 점들에 의해 선택된 키-밸류 쌍은 의미적 관련성이 부족한 문제가 있다. BiFormer에서 제안된 쿼리 인식 스파스성 어텐션은 각 쿼리가 상위-k 라우팅 영역에 집중되도록 유도하지만, 어텐션 계산 과정에서 선택된 키-밸류 쌍은 관련 없는 쿼리들에 의해 과도하게 영향을 받으며, 더 중요한 쿼리에 대한 어텐션은 감소하게 된다. 이러한 문제를 해결하기 위해 우리는 에이전트 쿼리를 사용하여 키-밸류 쌍의 선택을 최적화하고 어텐션 맵 내 쿼리의 해석 가능성을 향상시키는 변형 가능한 이수준 라우팅 어텐션(Deformable Bi-level Routing Attention, DBRA) 모듈을 제안한다. 본 모듈을 기반으로, DBRA 모듈을 활용해 구축된 새로운 일반 목적의 비전 트랜스포머인 변형 가능한 이수준 라우팅 어텐션 트랜스포머(Deformable Bi-level Routing Attention Transformer, DeBiFormer)를 소개한다. DeBiFormer는 이미지 분류, 객체 탐지, 세분화 등 다양한 컴퓨터 비전 작업에서 검증되었으며, 그 효과성에 대한 강력한 증거를 제공한다. 코드는 {https://github.com/maclong01/DeBiFormer}에서 제공된다.