TUKE bei MediaEval 2015 QUESST

In diesem Paper präsentieren wir unser Retrieval-System für die Task „QUery by Example Search on Speech“ (QUESST), das sich aus einem posteriorgrammbasierten Modellierungsansatz sowie dem gewichteten schnellen sequentiellen dynamischen Zeitverzerrungsalgorithmus (WFS-DTW) zusammensetzt. In diesem Jahr lag der Schwerpunkt unserer Arbeit auf der Entwicklung eines sprachabhängigen Schlüsselwort-Abgleichsystems, das sämtliche verfügbaren Informationen über gesprochene Sprachen nutzt und sowohl alle Abfragen als auch die entsprechenden Äußerungsdateien berücksichtigt. Obwohl der zugrundeliegende Retrieval-Algorithmus im Vergleich zum Vorjahr unverändert bleibt, liegt die zentrale Neuheit in der Art und Weise, wie Informationen über alle in der Retrieval-Datenbank vorkommenden Sprachen genutzt werden. Zwei Systeme für spracharmen Umgebungen, die auf sprachabhängigen akustischen Einheitensmodellierungsansätzen (AUM) basieren, wurden eingereicht. Das erste System, bezeichnet als „supervised“, verwendet vier gut trainierte phonetische Decoder, die auf akustischen Modellen basieren, die auf zeitlich alignierten und annotierten Sprachdaten trainiert wurden. Das zweite System, als „unsupervised“ definiert, nutzt blindes phonetisches Segmentieren für die jeweilige Sprache, wobei die sprachlichen Informationen aus den Mediaeval-2013- und Mediaeval-2014-Datenbanken extrahiert werden. Im Hinblick auf die Auswirkungen auf die Gesamtleistung des Retrieval-Verfahrens wurde für beide Ansätze die Anpassung der akustischen Modelle an die jeweilige Sprache durch einen Retrainingsprozess untersucht.