vor 2 Monaten

Jenseits der Transkription: Mechanistische Interpretierbarkeit in der Spracherkennung

Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

Abstract

Interpretierbarkeitsmethoden haben in letzter Zeit erhebliche Aufmerksamkeit erfahren, insbesondere im Kontext großer Sprachmodelle, da sie Einblicke in sprachliche Darstellungen, Fehlererkennung sowie Modellverhalten wie Halluzinationen und Wiederholungen ermöglichen. Dennoch sind diese Techniken im Bereich der automatischen Spracherkennung (ASR) nach wie vor untererforscht, obwohl ihr Potenzial zur Verbesserung sowohl der Leistungsfähigkeit als auch der Interpretierbarkeit von ASR-Systemen erheblich ist. In dieser Arbeit adaptieren und wenden wir etablierte Interpretierbarkeitsmethoden – darunter Logit Lens, Linear Probing und Activation Patching – systematisch an, um zu untersuchen, wie akustische und semantische Informationen über die Schichten hinweg in ASR-Systemen evolvieren. Unsere Experimente offenbaren bisher unbekannte interne Dynamiken, darunter spezifische Wechselwirkungen zwischen Encoder und Decoder, die für Wiederholungshalluzinationen verantwortlich sind, sowie semantische Verzerrungen, die tief in den akustischen Darstellungen kodiert sind. Diese Erkenntnisse belegen den Nutzen einer Erweiterung und Anwendung von Interpretierbarkeitsmethoden auf die Spracherkennung und eröffnen vielversprechende Forschungspfade zur Verbesserung der Transparenz und Robustheit von Modellen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Jenseits der Transkription: Mechanistische Interpretierbarkeit in der Spracherkennung

Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

Abstract

KI mit KI entwickeln

Hyper Newsletters