TUKE au MediaEval 2015 QUESST

Dans cet article, nous présentons notre système de recherche pour la tâche de recherche par exemple vocal (QUESST), basé sur une approche de modélisation par posteriorgrammes combinée à un algorithme de warping dynamique séquentiel rapide pondéré (WFS-DTW). Cette année, notre principal effort s’est concentré sur le développement d’un système de correspondance de mots-clés dépendant de la langue, exploitant toutes les informations disponibles sur les langues parlées, en tenant compte de toutes les requêtes et des fichiers d’énoncés. Bien que l’algorithme de recherche utilisé soit identique à celui de l’année précédente, une importante nouveauté réside dans la manière dont les informations relatives à toutes les langues présentes dans la base de données de recherche sont exploitées. Deux systèmes à faible ressource utilisant des approches de modélisation d’unités acoustiques dépendantes de la langue (AUM) ont été soumis. Le premier, appelé « supervisé », repose sur quatre décodeurs phonétiques bien entraînés, utilisant des modèles acoustiques entraînés sur des paroles alignées temporellement et annotées. Le second, qualifié d’« non supervisé », utilise une segmentation phonétique aveugle pour la langue spécifique, les informations linguistiques étant extraites des bases de données Mediaeval 2013 et Mediaeval 2014. En vue d’évaluer leur impact sur la performance globale de recherche, l’adaptation des modèles acoustiques à la langue spécifique par réentraînement a été étudiée pour les deux approches.