2달 전

인간을 위한 가사 전사: 읽기 용이성을 고려한 벤치마크

Ondřej Cífka; Hendrik Schreiber; Luke Miner; Fabian-Robert Stöter
인간을 위한 가사 전사: 읽기 용이성을 고려한 벤치마크
초록

인간이 읽기 위한 가사 작성은 단순히 단어 순서를 정확하게 기록하는 것뿐만 아니라, 명료성과 맥락 정보 전달을 위해 구두점과 형식을 포함하는 것을 의미합니다. 이는 노래의 구조, 감정적 강조, 그리고 메인 보컬과 백보컬 사이의 대비를 포함합니다. 자동 가사 인식(Automatic Lyrics Transcription, ALT) 시스템은 비구조화된 단어 문자열을 생성하는 것에서 벗어나 더 넓은 맥락을 활용할 수 있는 수준으로 발전했지만, ALT 벤치마크는 이러한 발전에 맞추지 못하고 여전히 단어에만 초점을 맞추고 있습니다. 이러한 격차를 해결하기 위해, 우리는 Jam-ALT라는 포괄적인 가사 인식 벤치마크를 소개합니다. 이 벤치마크는 업계 표준에 따라 가사 인식과 형식을 재검토한 JamendoLyrics 데이터셋의 완전한 개정판을 특징으로 하며, 가사 고유의 미묘한 차이를 포착하고 평가하기 위한 지표도 함께 제공하여, 가사의 읽기 편의성을 개선하는 기반을 마련합니다. 우리는 최근의 인식 시스템에 이 벤치마크를 적용하고 추가적인 오류 분석 결과를 제시하며, 고전음악 데이터셋과의 실험적 비교도 수행하였습니다.

인간을 위한 가사 전사: 읽기 용이성을 고려한 벤치마크 | 최신 연구 논문 | HyperAI초신경