HyperAIHyperAI

Command Palette

Search for a command to run...

Pré-entraînement hiérarchique pour l’étiquetage de séquences dans les dialogues oraux

Emile Chapuis Pierre Colombo Matteo Manica Matthieu Labeau Chloe Clavel

Résumé

Les tâches d’étiquetage de séquences, telles que l’identification des actes dialogiques ou des émotions/sentiments, constituent une composante essentielle des systèmes de dialogue parlé. Dans ce travail, nous proposons une nouvelle approche visant à apprendre des représentations génériques adaptées au dialogue parlé, que nous évaluons sur une nouvelle référence que nous appelons Sequence Labelling Evaluation Benchmark for Spoken Language (SILICONE). SILICONE est indépendante du modèle et comprend 10 jeux de données différents, de tailles variées. Nos représentations sont obtenues à l’aide d’un encodeur hiérarchique fondé sur des architectures Transformer, pour lequel nous étendons deux objectifs de pré-entraînement bien établis. L’entraînement préalable est effectué sur OpenSubtitles, un vaste corpus de dialogues parlés contenant plus de 2,3 milliards de tokens. Nous démontrons que les encodeurs hiérarchiques atteignent des résultats compétitifs avec un nombre de paramètres systématiquement plus faible que les modèles de pointe, et mettons en évidence leur importance tant pour l’entraînement préalable que pour le fine-tuning.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp