16일 전

병렬 시스템을 통한 문서 이미지 분류의 정확도 향상 및 속도 향상

Javier Ferrando, Juan Luis Dominguez, Jordi Torres, Raul Garcia, David Garcia, Daniel Garrido, Jordi Cortada, Mateo Valero
병렬 시스템을 통한 문서 이미지 분류의 정확도 향상 및 속도 향상
초록

이 논문은 기관의 디지털화 과정에서 핵심적인 문제인 문서 분류 작업에서, 더 무거운 합성곱 신경망(Convolutional Neural Networks, CNNs)에 비해 효율적인 모델(EfficientNet)의 이점을 제시한다. RVL-CDIP 데이터셋을 통해 더 가벼운 모델을 사용함으로써 기존 성능을 향상시킬 수 있음을 보이며, Tobacco3482와 같은 더 작은 도메인 내 데이터셋에서의 전이 학습 능력도 입증한다. 또한, 광학 문자 인식(OCR)을 통해 추출한 텍스트에 대해 BERT 모델이 생성한 예측과 이미지 모델의 예측을 결합함으로써 순수 이미지 입력만으로도 성능을 향상시킬 수 있는 앙상블 파이프라인을 제안한다. 더불어 배치 크기를 정확도를 저하시키지 않으면서 효과적으로 증가시킬 수 있음을 보여주며, 다중 GPU를 활용한 병렬 처리를 통해 학습 과정을 가속화하고 계산 시간을 단축할 수 있음을 확인한다. 마지막으로, 파이토치(PyTorch)와 텐서플로우(TensorFlow) 딥러닝 프레임워크 간의 학습 성능 차이를 분석하고 비교한다.

병렬 시스템을 통한 문서 이미지 분류의 정확도 향상 및 속도 향상 | 최신 연구 논문 | HyperAI초신경