11일 전
동적 비디오 환경에서 광학 문자 인식에 대한 시각-언어 모델의 벤치마킹
Sankalp Nagaonkar, Augustya Sharma, Ashish Choithani, Ashutosh Trivedi

초록
이 논문은 동적 영상 환경에서 시각-언어 모델(VLM)의 광학 문자 인식(OCR) 작업 평가를 위한 오픈소스 벤치마크를 소개한다. 우리는 코드 편집기, 뉴스 방송, 유튜브 영상, 광고 등 다양한 도메인을 아우르는 총 1,477개의 수동으로 주석 처리된 프레임을 포함한 정제된 데이터셋을 제시한다. 또한, Claude-3, Gemini-1.5, GPT-4o 등 세 가지 최첨단 VLM 모델을 EasyOCR 및 RapidOCR와 같은 전통적인 OCR 시스템과 비교하여 벤치마킹하였다. 평가 지표로는 단어 오류률(WER), 문자 오류률(CER), 정확도를 사용하였다. 실험 결과는 VLM이 영상 기반 OCR 작업에서 갖는 강점과 한계를 명확히 드러내며, 많은 상황에서 기존 OCR 모델을 능가할 수 있는 잠재력을 입증한다. 그러나 환상적 생성(hallucinations), 콘텐츠 보안 정책, 가려짐 또는 스타일화된 텍스트에 대한 민감성 등의 도전 과제가 여전히 존재한다. 본 연구에서 제시하는 데이터셋과 벤치마킹 프레임워크는 향후 연구를 촉진하기 위해 공개되어 있다.