Command Palette
Search for a command to run...
Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole
Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

Résumé
Les méthodes d’interprétabilité ont récemment suscité un intérêt croissant, notamment dans le contexte des grands modèles linguistiques, permettant d’obtenir des éclairages sur les représentations linguistiques, la détection d’erreurs et le comportement des modèles, tels que les hallucinations ou les répétitions. Toutefois, ces techniques restent largement sous-exploitées dans le domaine de la reconnaissance automatique de la parole (ASR), malgré leur potentiel d’améliorer à la fois les performances et l’interprétabilité des systèmes ASR. Dans ce travail, nous adaptons et appliquons de manière systématique des méthodes d’interprétabilité établies, telles que le logit lens, la linear probing et la activation patching, afin d’étudier l’évolution de l’information acoustique et sémantique à travers les couches des systèmes ASR. Nos expériences révèlent des dynamiques internes jusque-là inconnues, notamment des interactions spécifiques entre l’encodeur et le décodeur responsables des hallucinations par répétition, ainsi que des biais sémantiques encodés en profondeur dans les représentations acoustiques. Ces résultats mettent en évidence les bénéfices de l’extension et de l’application des méthodes d’interprétabilité à la reconnaissance vocale, ouvrant ainsi des perspectives prometteuses pour des recherches futures visant à améliorer la transparence et la robustesse des modèles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.