7일 전

도로 위의 차선 사이를 읽다: 텍스트 기반 비디오 질의응답

George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas, C.V. Jawahar
도로 위의 차선 사이를 읽다: 텍스트 기반 비디오 질의응답
초록

도로 주변의 텍스트와 표지판은 운전자에게 안전한 주행과 상황 인식에 필수적인 정보를 제공한다. 운동 중 장면 내 텍스트 인식은 도전적인 문제로, 일반적으로 텍스트 정보는 짧은 시간 동안만 나타나며, 멀리서 조기 탐지가 필요하다. 운전자를 보조하기 위해 이러한 정보를 활용하는 시스템은 비디오 스트림에서 시각적 및 텍스트적 단서를 추출하고 통합할 뿐만 아니라, 시간에 따라 추론하는 능력도 가져야 한다. 이 문제를 해결하기 위해 우리는 운전자 보조 시스템 환경에서 영상 질의응답(VideoQA) 작업을 위한 새로운 데이터셋인 RoadTextVQA를 제안한다. RoadTextVQA는 여러 국가에서 수집한 총 3,222개의 운전 영상으로 구성되며, 해당 영상 내 존재하는 텍스트나 도로 표지판을 기반으로 10,500개의 질문이 레이블링되어 있다. 우리는 최신의 영상 질의응답 모델들이 본 데이터셋에서 수행하는 성능을 평가함으로써, 이 분야에서의 향상 가능성이 크며, 차량 내 지원 시스템 및 텍스트 인식형 다모달 질의응답 연구 발전에 본 데이터셋이 매우 유용함을 강조한다. 본 데이터셋은 http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa 에서 공개되어 있다.

도로 위의 차선 사이를 읽다: 텍스트 기반 비디오 질의응답 | 최신 연구 논문 | HyperAI초신경