효율적인 비트스

Efficient ViTs는 Vision Transformers (ViTs)의 효율성을 향상시키는 것을 목표로 하며, Transformer 아키텍처를 변경하지 않습니다. 주요 기술은 키와 쿼리 스파시피케이션, 토큰 프루닝, 그리고 토큰 머징을 포함합니다. 이 접근법은 모델 성능을 유지하면서 계산 비용과 메모리 소비를大幅减少, 따라서在大规模数据集上提高了训练和推理速度。这对于实时图像处理和资源受限环境中的计算机视觉任务非常合适。 (Note: The last two sentences contain mixed language. Here is the corrected version in Korean.) 이 접근법은 모델 성능을 유지하면서 계산 비용과 메모리 소비를 크게 줄일 수 있으며, 대규모 데이터셋에서 학습 및 추론 속도를 향상시키는 데 도움이 됩니다. 실시간 이미지 처리와 리소스 제약 환경에서의 컴퓨터 비전 작업에 매우 적합합니다.

ImageNet-1K (with DeiT-S)

dTPS

ImageNet-1K (with DeiT-T)

ImageNet-1K (With LV-ViT-S)

MCTF ($r=8$)