DiffRate : 효율적인 비전 트랜스포머를 위한 미분 가능한 압축률

토큰 압축은 대규모 비전 트랜스포머(예: ViTs)의 처리 속도를 높이기 위해 토큰을 제거하거나 병합하는 것을 목표로 합니다. 이는 중요한 과제이지만, 도전적인 문제입니다. 최근의 고급 접근법들이 큰 성공을 거두었음에도 불구하고, 이들은 압축률(즉, 제거할 토큰의 수)을 신중하게 수작업으로 설정해야 하는데, 이는 번거롭고 최적의 성능을 달성하지 못하게 합니다. 이러한 문제를 해결하기 위해, 우리는 새로운 토큰 압축 방법인 미분 가능한 압축률(Differentiable Compression Rate, DiffRate)을 제안합니다. DiffRate는 다음과 같은 매력적인 특성을 가지고 있어 기존 기술보다 우수합니다.첫째, DiffRate는 손실 함수의 그래디언트를 압축률에 전파할 수 있게 해줍니다. 이전 연구에서는 압축률이 미분 불가능한 하이퍼파라미터로 간주되었으나, 이를 통해 각 층은 추가적인 오버헤드 없이 자동으로 서로 다른 압축률을 학습할 수 있습니다.둘째, DiffRate는 토큰 제거와 병합을 자연스럽게 동시에 수행할 수 있습니다. 이전 연구에서는 두 과정이 분리되어 진행되었습니다.셋째, 광범위한 실험 결과가 보여주듯, DiffRate는 최신 기술(SOTA) 성능을 달성합니다. 예를 들어, 사전 학습된 ViT-H (MAE) 모델에 학습된 층별 압축률을 적용하면 ImageNet에서 미세 조정(fine-tuning) 없이 0.16%의 정확도 하락만으로 40%의 FLOPs 감소와 1.5배의 처리량 개선을 이루어냅니다. 심지어 이는 미세 조정까지 포함한 이전 방법들보다도 우수한 성능을 보입니다.코드와 모델은 https://github.com/OpenGVLab/DiffRate에서 확인할 수 있습니다.