HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole

Résumé

Les méthodes d’interprétabilité ont récemment suscité un intérêt croissant, notamment dans le contexte des grands modèles linguistiques, permettant d’obtenir des éclairages sur les représentations linguistiques, la détection d’erreurs et le comportement des modèles, tels que les hallucinations ou les répétitions. Toutefois, ces techniques restent largement sous-exploitées dans le domaine de la reconnaissance automatique de la parole (ASR), malgré leur potentiel d’améliorer à la fois les performances et l’interprétabilité des systèmes ASR. Dans ce travail, nous adaptons et appliquons de manière systématique des méthodes d’interprétabilité établies, telles que le logit lens, la linear probing et la activation patching, afin d’étudier l’évolution de l’information acoustique et sémantique à travers les couches des systèmes ASR. Nos expériences révèlent des dynamiques internes jusque-là inconnues, notamment des interactions spécifiques entre l’encodeur et le décodeur responsables des hallucinations par répétition, ainsi que des biais sémantiques encodés en profondeur dans les représentations acoustiques. Ces résultats mettent en évidence les bénéfices de l’extension et de l’application des méthodes d’interprétabilité à la reconnaissance vocale, ouvrant ainsi des perspectives prometteuses pour des recherches futures visant à améliorer la transparence et la robustesse des modèles.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Au-delà de la transcription : l'interprétabilité mécaniste dans la reconnaissance automatique de la parole | Articles de recherche | HyperAI