{Milan Rusko Jozef Juhár Matúš Pleva Martin Lojka Peter Viszlay Jozef Vavrek}

Abstract
In diesem Paper präsentieren wir unser Retrieval-System für die Task „QUery by Example Search on Speech“ (QUESST), das sich aus einem posteriorgrammbasierten Modellierungsansatz sowie dem gewichteten schnellen sequentiellen dynamischen Zeitverzerrungsalgorithmus (WFS-DTW) zusammensetzt. In diesem Jahr lag der Schwerpunkt unserer Arbeit auf der Entwicklung eines sprachabhängigen Schlüsselwort-Abgleichsystems, das sämtliche verfügbaren Informationen über gesprochene Sprachen nutzt und sowohl alle Abfragen als auch die entsprechenden Äußerungsdateien berücksichtigt. Obwohl der zugrundeliegende Retrieval-Algorithmus im Vergleich zum Vorjahr unverändert bleibt, liegt die zentrale Neuheit in der Art und Weise, wie Informationen über alle in der Retrieval-Datenbank vorkommenden Sprachen genutzt werden. Zwei Systeme für spracharmen Umgebungen, die auf sprachabhängigen akustischen Einheitensmodellierungsansätzen (AUM) basieren, wurden eingereicht. Das erste System, bezeichnet als „supervised“, verwendet vier gut trainierte phonetische Decoder, die auf akustischen Modellen basieren, die auf zeitlich alignierten und annotierten Sprachdaten trainiert wurden. Das zweite System, als „unsupervised“ definiert, nutzt blindes phonetisches Segmentieren für die jeweilige Sprache, wobei die sprachlichen Informationen aus den Mediaeval-2013- und Mediaeval-2014-Datenbanken extrahiert werden. Im Hinblick auf die Auswirkungen auf die Gesamtleistung des Retrieval-Verfahrens wurde für beide Ansätze die Anpassung der akustischen Modelle an die jeweilige Sprache durch einen Retrainingsprozess untersucht.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| keyword-spotting-on-quesst | TUKE g-U late submission (eval) | ATWV: 0.028 Cnxe: 0.974 MTWV: 0.032 MinCnxe: 0.954 |
| keyword-spotting-on-quesst | TUKE p-S (eval) | ATWV: 0.002 Cnxe: 0.971 MTWV: 0.022 MinCnxe: 0.953 |
| keyword-spotting-on-quesst | TUKE p-S late submission (eval) | ATWV: 0.046 Cnxe: 0.963 MTWV: 0.049 MinCnxe: 0.940 |
| keyword-spotting-on-quesst | TUKE p-S (dev) | ATWV: 0.022 Cnxe: 0.970 ISF: 2.312 MTWV: 0.036 MinCnxe: 0.947 PL: 0.068 PMUi: 0.250 PMUs: 1.874 SSF: 0.0061 |
| keyword-spotting-on-quesst | TUKE g-U (dev) | ATWV: 0.0001 Cnxe: 0.974 ISF: 0.383 MTWV: 0.031 MinCnxe: 0.953 PL: 0.033 PMUi: 0.515 PMUs: 2.292 SSF: 0.0066 |
| keyword-spotting-on-quesst | TUKE p-S late submission (dev) | ATWV: 0.055 Cnxe: 0.962 MTWV: 0.059 MinCnxe: 0.940 |
| keyword-spotting-on-quesst | TUKE g-U late submission (dev) | ATWV: 0.032 Cnxe: 0.970 MTWV: 0.035 MinCnxe: 0.951 |
| keyword-spotting-on-quesst | TUKE g-U (eval) | ATWV: -0.01 Cnxe: 0.973 MTWV: 0.023 MinCnxe: 0.953 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.