12일 전

말하는 방식처럼 행동하는가? 음성 인식 네트워크를 활용한 자세 기반 운전 행동 분류 탐구

{Ángel Llamazares, Miguel Antunes, Santiago Montiel-Marín, Luis M. Bergasa, Pablo Pardo-Decimavilla}
초록

도로에서의 방해 요소를 인식하는 것은 교통 사고를 줄이는 데 핵심적이다. 기존의 비디오 기반 네트워크는 일반적으로 사용되지만, 계산 비용이 높고 시점 변화에 취약하다는 한계가 있다. 본 논문에서는 음성 인식 네트워크를 활용한 포즈 기반 운전자의 행동 분류를 위한 새로운 접근법을 제안한다. 이 방법은 비디오 기반 기법보다 가볍고 시점 변화에 더 강인하다. 음성 데이터와 포즈 데이터 간의 정보 인코딩 유사성을 활용하여, 포즈를 시간에 따른 키포인트로 표현한다. 제안하는 아키텍처는 효율적인 어텐션 기반 음성 인식 네트워크인 Squeezeformer를 기반으로 한다. 일반화 성능을 향상시키기 위해 다양한 데이터 증강 기법을 도입하였다. Drive&Act 데이터셋에서의 실험 결과, 최신 기술 대비 우수한 성능을 보였다. 또한, 객체 정보의 통합과 시점 변화가 미치는 영향에 대해서도 탐구하였다. 본 연구 결과는 음성 인식 네트워크가 포즈 기반 행동 분류에 있어 효과적이고 견고함을 입증한다.

말하는 방식처럼 행동하는가? 음성 인식 네트워크를 활용한 자세 기반 운전 행동 분류 탐구 | 최신 연구 논문 | HyperAI초신경