Résumé abstrait d'instructions orales et écrites avec BERT

La résumé automatique de discours constitue un défi majeur en raison de la spontanéité du flux parlé, des hésitations linguistiques et d'autres imperfections peu fréquentes dans les textes écrits. Ce travail présente la première application du modèle BERTSum au langage conversationnel. Nous générons des résumés abstraits de vidéos explicatives narrées couvrant une large gamme de sujets — allant du jardinage et de la cuisine à la configuration logicielle ou aux sports. Pour enrichir le vocabulaire, nous utilisons l’apprentissage par transfert et préentraînons le modèle sur plusieurs grands jeux de données multidomaines, tant en anglais écrit qu’en anglais parlé. Une étape de prétraitement des transcriptions est également mise en œuvre afin de restaurer la segmentation en phrases et la ponctuation dans les sorties d’un système de reconnaissance vocale (ASR). Les résultats sont évalués à l’aide des métriques ROUGE et Content-F1 sur les jeux de données How2 et WikiHow. Des juges humains évaluent un ensemble de résumés sélectionnés aléatoirement à partir d’un jeu de données issu de HowTo100M et de YouTube. Sur la base d’une évaluation aveugle, nous atteignons un niveau de fluidité textuelle et d’utilité proche de celui des résumés rédigés par des créateurs humains de contenu. Le modèle surpasser la méthode d’état de l’art actuelle sur les articles WikiHow, qui varient fortement en style et en thème, tout en maintenant des performances stables sur le jeu de données canonique CNN/DailyMail. Grâce à sa forte capacité de généralisation à travers différents styles et domaines, ce modèle présente un fort potentiel pour améliorer l’accessibilité et la découverte du contenu disponible sur Internet. Nous envisageons son intégration comme fonctionnalité dans des assistants virtuels intelligents, leur permettant ainsi de résumer à la demande à la fois du contenu écrit et parlé d’ordre instructif.