2달 전

텍스트 분할에서 스마트 장별 구조화까지: 비디오 전사의 새로운 벤치마크

Fabian Retkowski; Alexander Waibel

초록

텍스트 분할은 자연어 처리의 기본적인 작업으로, 문서를 연속된 섹션으로 나누는 과정을 말합니다. 그러나 이 분야의 이전 연구들은 규모가 작거나 합성되었거나, 구조화된 문서만을 포함하는 제한된 데이터셋에 의해 제약을 받았습니다. 본 논문에서는 이러한 한계를 극복하기 위해, 본질적으로 더 비구조적이고 주제적으로도 구조적으로도 다양성을 가진 구어 내용에 초점을 맞춘 새로운 벤치마크 YTSeg(YouTube Segmentation)를 소개합니다. 또한 이 연구의 일환으로, 기존 최신 기법들을 능가하는 효율적인 계층적 분할 모델인 MiniSeg를 제시합니다. 마지막으로, 텍스트 분할의 개념을 더 실용적인 "스마트 챕터링" 작업으로 확장합니다. 이 작업은 비구조화된 내용의 분할, 의미 있는 섹션 제목 생성, 그리고 모델의 잠재적인 실시간 응용을 포함합니다.