10일 전

조정된 Transformer 및 시공간 융합 전략을 기반으로 한 음성-시각적 음성 인식: 운전자 보조 시스템을 위한 접근법

{Alexey Karpov, Alexey Kashevnik, Denis Ivanko, Elena Ryumina, Alexandr Axyonov, Dmitry Ryumin}
초록

이 논문은 운전 보조 시스템에서 음성-시각적 말하기 인식(AVSR)을 위한 연구 방법론을 제시한다. 이러한 시스템은 운전 중 안전을 위해 운전자와 지속적인 상호작용을 요구하며, 음성 제어를 통해 작동해야 한다. 본 논문은 강건한 AVSR을 위한 특화된 새로운 음성-시각적 말 명령 인식 트랜스포머(AVCRFormer)를 제안한다. 제안하는 방법은 (i) 음성과 영상 특징 행렬의 공간-시간 병합 기반 다모달 융합 전략, (ii) 다중 인코더를 갖춘 반복적 모델 정밀화 모듈을 기반으로 한 제어된 트랜스포머, (iii) 다중 디코더를 기반으로 한 분류기 앙상블 전략을 포함한다. 공간-시간 융합 전략은 두 모달리티의 맥락 정보를 유지하면서 신호 간 동기화를 달성한다. 반복적 모델 정밀화 모듈은 음성과 시각 데이터 간의 상호작용을 활용하여 음성 인식 정확도에 미치는 영향을 기반으로 두 데이터 간 격차를 해소한다. 제안된 다중 예측 전략은 기존 단일 예측 전략에 비해 우수한 성능을 보이며, 다양한 음성-시각적 환경에서 모델의 적응력을 입증한다. 제안된 트랜스포머는 RUSAVIC 및 LRW 데이터셋에서 각각 98.87%, 98.81%의 최고 수준의 말 명령 인식 정확도를 달성하였다. 본 연구는 인간-컴퓨터 상호작용의 발전에 중요한 의미를 지닌다. AVCRFormer의 기능은 AVSR을 넘어서며, 음성-시각 처리와 인공지능의 융합 분야에 있어 유의미한 기여를 한다.