2달 전

HTR-VT: Vision Transformer를 활용한 손글씨 인식

Li, Yuting ; Chen, Dexiong ; Tang, Tinglong ; Shen, Xi
HTR-VT: Vision Transformer를 활용한 손글씨 인식
초록

우리는 Vision Transformer (ViT)을 손글씨 인식에 적용하는 방법을 탐구합니다. 이 분야에서 라벨링된 데이터의 한정적인 이용 가능성은 ViT에만 의존하여 높은 성능을 달성하는 데 어려움을 초래합니다. 이전의 트랜스포머 기반 모델들은 우수한 성능을 내기 위해 외부 데이터나 대규모 데이터셋에서의 충분한 사전 학습이 필요했습니다. 이러한 제약 조건을 해결하기 위해, 우리는 표준 트랜스포머의 인코더만을 사용하는 데이터 효율적인 ViT 방법을 소개합니다. 우리는 원래의 패치 임베딩 대신 특징 추출에 Convolutional Neural Network (CNN)를 통합하고, Sharpness-Aware Minimization (SAM) 옵티마이저를 사용하여 모델이 더 평평한 최소값으로 수렴할 수 있도록 하여 눈에 띄는 개선 효과를 얻었습니다. 또한, 피처 맵에서 연결된 특징들을 마스킹하는 스팬 마스크 기법을 도입하여 효과적인 정규화기를 제공하였습니다. 경험적으로, 우리의 접근 방식은 IAM 및 READ2016와 같은 작은 데이터셋에서 전통적인 CNN 기반 모델들과 유리하게 경쟁하며, 현재 가장 큰 19,830개 훈련 텍스트 줄이 포함된 LAM 데이터셋에서 새로운 벤치마크를 설정하였습니다. 코드는 공개되어 있으며, 다음 주소에서 확인할 수 있습니다: https://github.com/YutingLi0606/HTR-VT.

HTR-VT: Vision Transformer를 활용한 손글씨 인식 | 최신 연구 논문 | HyperAI초신경