De la segmentation de texte à l’indexation intelligente des chapitres : Un nouveau benchmark pour structurer les transcriptions vidéo

La segmentation de texte est une tâche fondamentale en traitement automatique des langues naturelles, où les documents sont divisés en sections contiguës. Cependant, les recherches antérieures dans ce domaine ont été limitées par des jeux de données restreints, qui sont soit de petite échelle, soit synthétisés, ou ne contiennent que des documents bien structurés. Dans cet article, nous abordons ces limitations en introduisant un nouveau benchmark YTSeg (YouTube Segmentation) axé sur le contenu oral, qui est intrinsèquement plus non structuré et divers à la fois sur le plan thématique et structurel. Dans le cadre de cette étude, nous présentons également un modèle de segmentation hiérarchique efficace appelé MiniSeg, qui surpasses les modèles de référence actuels. Enfin, nous étendons le concept de segmentation de texte à une tâche plus pratique de « chapitrage intelligent » impliquant la segmentation du contenu non structuré, la génération de titres de segments pertinents et une application potentielle en temps réel des modèles.