한 달 전

LRW-1000: 야외 환경에서의 입술 읽기 대규모 벤치마크

Shuang Yang; Yuanhang Zhang; Dalu Feng; Mingmin Yang; Chenhao Wang; Jingyun Xiao; Keyu Long; Shiguang Shan; Xilin Chen
LRW-1000: 야외 환경에서의 입술 읽기 대규모 벤치마크
초록

대규모 데이터셋은 여러 연구 분야에서 그 근본적인 중요성을 차례로 입증해 왔으며, 특히 일부 새로운 주제의 초기 발전에 있어 중요한 역할을 하였습니다. 본 논문에서는 최근 몇 년 동안 점차적으로 많은 관심을 받고 있는 시각적 음성 인식(visual speech recognition) 문제, 즉 입술 읽기(lipreading)에 초점을 맞추고 있습니다. 우리는 실생활에서의 입술 읽기를 위한 자연적으로 분산된 대규모 벤치마크를 제시하며, 이를 LRW-1000이라고 명명하였습니다. 이 데이터셋은 2,000명 이상의 개별 화자로부터 수집된 1,000개 클래스와 718,018개 샘플을 포함하고 있습니다. 각 클래스는 한 자 또는 여러 자로 구성된 한어 단어의 음절에 해당합니다. 최선의 지식으로 판단할 때, 이는 현재까지 가장 큰 단어 수준의 입술 읽기 데이터셋이며, 또한 유일한 공개된 대규모 한어 입술 읽기 데이터셋입니다. 이 데이터셋은 실제 적용에서 마주치는 도전 과제들을 반영하기 위해 다양한 말하기 모드와 영상 조건을 포괄하는 것을 목표로 합니다. 이 벤치마크는 샘플 수, 비디오 해상도, 조명 조건, 화자의 속성(자세, 나이, 성별, 화장 등) 등 여러 측면에서 큰 변화를 보여줍니다. 데이터셋과 그 수집 파이프라인에 대한 상세한 설명뿐만 아니라, 몇 가지 일반적으로 사용되는 입술 읽기 방법들을 평가하고 결과를 여러 측면에서 철저히 분석하였습니다. 결과는 우리 데이터셋의 일관성과 도전 과제를 보여주며, 미래 연구를 위한 새로운 유망한 방향들을 제시할 수 있을 것입니다.

LRW-1000: 야외 환경에서의 입술 읽기 대규모 벤치마크 | 최신 연구 논문 | HyperAI초신경