HyperAIHyperAI

Command Palette

Search for a command to run...

Mel-Frequenz-Cepstrum-MFCCs

Datum

vor einem Jahr

Mel-Frequency Cepstral Coefficients (MFCCs) sind eine Technologie, die im Bereich der Tonverarbeitung, insbesondere bei der Spracherkennung und Sprechererkennung, weit verbreitet ist. Es wurde 1980 von Davis und Mermelstein vorgeschlagen und basiert auf der linearen Transformation des logarithmischen Leistungsspektrums der nichtlinearen Mel-Skala von Tonfrequenzen.

Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) sind Koeffizienten, aus denen das Mel-Frequenz-Cepstrum besteht. Sie werden aus dem Cepstrum eines Audioclips abgeleitet und sind auf der Mel-Skala in Bändern gleichmäßig verteilt, die das menschliche Hörsystem besser wiedergeben als die linear verteilten Bänder, die im normalen Cepstrum verwendet werden. Diese nichtlineare Darstellung kann in vielen Bereichen, beispielsweise bei der Audiokompression, zu einer besseren Darstellung von Tonsignalen führen. Der Berechnungsprozess von MFCCs kann grob in die folgenden Schritte unterteilt werden: Lesen der Audiodatei, Vorverzerrung, Framing, Fensterung, Fourier-Transformation, Erhalten des Mel-Spektrums durch die Mel-Filterbank und Durchführen einer Cepstrum-Analyse am Mel-Spektrum. MFCCs enthalten normalerweise 12 Koeffizienten, die mit der Rahmenenergie überlagert werden, um 13-dimensionale Koeffizienten zu erhalten, die zur Beschreibung der Eigenschaften jedes Sprachrahmens verwendet werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mel-Frequenz-Cepstrum-MFCCs | Wiki | HyperAI