2달 전

전사 이상: 음성인식에서의 기계적 해석 가능성

Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

초록

최근 해석 가능성(Interpretability) 기법은 대규모 언어 모델의 맥락에서 특히 주목을 받고 있으며, 언어적 표현, 오류 탐지, 환각 현상 및 반복 행동과 같은 모델의 동작 방식에 대한 통찰을 가능하게 하고 있다. 그러나 이러한 기법은 자동 음성 인식(ASR) 분야에서는 여전히 탐색이 부족한 상태이며, ASR 시스템의 성능 향상과 해석 가능성 제고 측면에서 그 잠재력이 크다. 본 연구에서는 기존의 해석 가능성 기법인 로짓 렌즈(Logit Lens), 선형 탐색(Linear Probing), 활성화 패치링(Activation Patching)을 적절히 변형하고 체계적으로 적용하여, ASR 시스템 내에서 음성 정보와 의미 정보가 계층 간에 어떻게 진화하는지를 탐구한다. 실험 결과, 반복 환각 현상을 유발하는 특정 인코더-디코더 상호작용과 음성 표현 내부에 깊이 내재된 의미 편향을 포함한 이전에 알려지지 않은 내부 역학 구조가 발견되었다. 이러한 통찰은 음성 인식 분야에 해석 가능성 기법을 확장하고 적용하는 데서 얻는 이점을 입증하며, 모델의 투명성과 견고성 향상을 위한 향후 연구의 전망을 열어준다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

전사 이상: 음성인식에서의 기계적 해석 가능성

Neta Glazer Yael Segal-Feldman Hilit Segev Aviv Shamsian Asaf Buchnick Gill Hetz Ethan Fetaya Joseph Keshet Aviv Navon

초록

AI로 AI 구축

Hyper Newsletters