HyperAIHyperAI
vor 17 Tagen

Lernen effizienter Darstellungen für Keyword Spotting mit Triplet-Loss

Roman Vygon, Nikolay Mikhaylovskiy
Lernen effizienter Darstellungen für Keyword Spotting mit Triplet-Loss
Abstract

In den letzten Jahren sind triplet-Loss-basierte metrische Embeddings zu einer de-facto-Standardlösung für mehrere bedeutende Aufgaben im Bereich des maschinellen Sehens geworden, vor allem für die Person-Re-Identification. Im Bereich der Spracherkennung werden metrische Embeddings, die mittels triplet-Loss generiert werden, selbst für Klassifikationsaufgaben jedoch selten eingesetzt. Wir schließen diese Lücke, indem wir zeigen, dass eine Kombination zweier Techniken des Repräsentationslernens – eine triplet-Loss-basierte Embedding-Technik zusammen mit einer Variante des kNN für die Klassifikation anstelle der Cross-Entropy-Loss-Funktion – die Klassifikationsgenauigkeit von Faltungsnetzwerken auf den auf LibriSpeech basierenden LibriWords-Datensätzen signifikant (um 26 % bis 38 %) verbessert. Dazu schlagen wir einen neuartigen, auf phonetischer Ähnlichkeit basierenden Ansatz für das Triplet-Mining vor. Zudem erreichen wir eine Verbesserung des derzeit besten veröffentlichten SOTA für die Google Speech Commands-Datensätze V1 10+2-Klassen-Klassifikation um etwa 34 %, wobei eine Genauigkeit von 98,55 % erzielt wird; für die V2 10+2-Klassen-Klassifikation um etwa 20 %, was eine Genauigkeit von 98,37 % ergibt; und für die V2 35-Klassen-Klassifikation um über 50 %, was eine Genauigkeit von 97,0 % erreicht.