Command Palette
Search for a command to run...
Jenseits der Transkription: Mechanistische Interpretierbarkeit in der Spracherkennung
Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

Abstract
Interpretierbarkeitsmethoden haben in letzter Zeit erhebliche Aufmerksamkeit erfahren, insbesondere im Kontext großer Sprachmodelle, da sie Einblicke in sprachliche Darstellungen, Fehlererkennung sowie Modellverhalten wie Halluzinationen und Wiederholungen ermöglichen. Dennoch sind diese Techniken im Bereich der automatischen Spracherkennung (ASR) nach wie vor untererforscht, obwohl ihr Potenzial zur Verbesserung sowohl der Leistungsfähigkeit als auch der Interpretierbarkeit von ASR-Systemen erheblich ist. In dieser Arbeit adaptieren und wenden wir etablierte Interpretierbarkeitsmethoden – darunter Logit Lens, Linear Probing und Activation Patching – systematisch an, um zu untersuchen, wie akustische und semantische Informationen über die Schichten hinweg in ASR-Systemen evolvieren. Unsere Experimente offenbaren bisher unbekannte interne Dynamiken, darunter spezifische Wechselwirkungen zwischen Encoder und Decoder, die für Wiederholungshalluzinationen verantwortlich sind, sowie semantische Verzerrungen, die tief in den akustischen Darstellungen kodiert sind. Diese Erkenntnisse belegen den Nutzen einer Erweiterung und Anwendung von Interpretierbarkeitsmethoden auf die Spracherkennung und eröffnen vielversprechende Forschungspfade zur Verbesserung der Transparenz und Robustheit von Modellen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.