HyperAIHyperAI

Command Palette

Search for a command to run...

De la segmentation de texte à l’indexation intelligente des chapitres : Un nouveau benchmark pour structurer les transcriptions vidéo

Fabian Retkowski Alexander Waibel

Résumé

La segmentation de texte est une tâche fondamentale en traitement automatique des langues naturelles, où les documents sont divisés en sections contiguës. Cependant, les recherches antérieures dans ce domaine ont été limitées par des jeux de données restreints, qui sont soit de petite échelle, soit synthétisés, ou ne contiennent que des documents bien structurés. Dans cet article, nous abordons ces limitations en introduisant un nouveau benchmark YTSeg (YouTube Segmentation) axé sur le contenu oral, qui est intrinsèquement plus non structuré et divers à la fois sur le plan thématique et structurel. Dans le cadre de cette étude, nous présentons également un modèle de segmentation hiérarchique efficace appelé MiniSeg, qui surpasses les modèles de référence actuels. Enfin, nous étendons le concept de segmentation de texte à une tâche plus pratique de « chapitrage intelligent » impliquant la segmentation du contenu non structuré, la génération de titres de segments pertinents et une application potentielle en temps réel des modèles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp