9일 전

자연어 지원 서브라임 언어 인식

Ronglai Zuo, Fangyun Wei, Brian Mak
자연어 지원 서브라임 언어 인식
초록

수신어는 손모양, 표정, 신체 움직임 등 시각적 요소를 통해 정보를 전달하는 시각언어이다. 이러한 시각적 요소의 조합에 inherent한 제약이 존재함에 따라 수신어에는 시각적으로 구별하기 어려운(sign) 표시들(이하 VISigns)이 다수 존재하며, 이는 시각 신경망의 인식 능력을 제한한다. 이 문제를 완화하기 위해, 우리는 글로스(gloss, 표시 레이블)에 포함된 의미 정보를 활용하는 자연어 보조 수신어 인식(NLA-SLR) 프레임워크를 제안한다. 첫째, 유사한 의미를 가진 VISigns에 대해, 각 훈련 표시에 대해 소프트 레이블을 생성하고, 이에 대한 스무딩 가중치는 글로스 간 정규화된 의미 유사도로부터 계산함으로써 훈련을 완화하는 언어 인지적 레이블 스무딩 기법을 제안한다. 둘째, 서로 다른 의미를 가진 VISigns에 대해, 비전과 글로스 특징을 혼합하여 블렌딩된 레이블에 따라 서로 다른 표시들 간의 구분 가능성을 극대화하는 다모달 믹스업(Inter-modality Mixup) 기법을 제안한다. 또한, RGB 영상과 인간의 체중점(kepoints)을 동시에 모델링하고, 다양한 시간적 수용 영역(time receptive field)을 가진 수신어 영상을 통해 지식을 추출할 수 있는 새로운 백본(Backbone)인 비디오-키포인트 네트워크를 도입한다. 실증 결과, 제안한 방법은 MSASL, WLASL, NMFs-CSL 세 가지 널리 사용되는 벤치마크에서 최고 성능을 달성하였다. 코드는 https://github.com/FangyunWei/SLRT 에서 공개되어 있다.

자연어 지원 서브라임 언어 인식 | 최신 연구 논문 | HyperAI초신경