10일 전
EfficientNetV2와 Transformers를 활용한 정확하고 자원 효율적인 리핑리딩
{Gerasimos Potamianos, Alexandros Koumparoulis}
초록
우리는 대표적이고 도전적인 벤치마크에서 최신 기술 수준의 성능을 달성하는 자원 효율적인 엔드투엔드 구조를 제안한다. 특히 다음의 기여를 한다. 첫째, 이미지 분류 분야에서 최근 성공을 거둔 EfficientNet 아키텍처와 우리가 이전에 제안한 자원 효율적인 입술읽기 모델(MobiLipNet)의 연구를 영감으로 받아, 입술읽기 작업에 EfficientNet을 도입한다. 둘째, 기존 문헌에서 가장 널리 사용되는 3D 프론트엔드에 존재하는 max-pool 레이어가 네트워크의 우수한 성능 달성에 제약을 준다는 점을 지적하고, 이를 제거할 것을 제안한다. 셋째, 트랜스포머 인코더를 시스템의 백엔드에 포함함으로써 모델의 강건성을 향상시킨다. 제안하는 시스템은 BBC TV 방송에서 촬영한 짧은 영상 조각을 포함한 “Lipreading In-The-Wild”(LRW) 데이터베이스에서 평가된다. 제안된 네트워크(T-버전)는 현재 최고 성능을 기록한 모델보다 절대적으로 0.17% 높은 88.53%의 단어 정확도를 달성하면서도 계산량은 다섯 분의 일로 줄였다. 또한, 확장된 버전(L-버전)은 89.52%의 정확도를 기록하며, LRW 데이터베이스에서 새로운 최고 성능 기록을 수립했다.