
초록
최근 몇 년간, 트리플릿 손실(triplet loss) 기반의 메트릭 임베딩은 사람 재식별(Person reidentification)을 포함한 여러 중요한 컴퓨터 비전 문제에서 사실상의 표준으로 자리 잡았다. 반면 음성 인식 분야에서는 트리플릿 손실을 통해 생성된 메트릭 임베딩이 분류 문제에 거의 사용되지 않고 있다. 본 연구는 이러한 격차를 메우며, 교차 엔트로피 손실 대신 kNN의 변형을 활용한 분류 기법과 트리플릿 손실 기반 임베딩을 결합함으로써, LibriSpeech에서 파생된 LibriWords 데이터셋에서 컨볼루션 네트워크의 분류 정확도를 26%에서 38%까지 크게 향상시킴을 보여준다. 이를 위해 우리는 새로운 음소 유사도 기반의 트리플릿 마이닝(triplet mining) 방법을 제안한다. 또한, Google Speech Commands 데이터셋 V1 10+2-클래스 분류에서는 기존 최고 성능(SOTA)을 약 34% 향상시켜 98.55%의 정확도를 달성하였으며, V2 10+2-클래스 분류에서는 약 20% 향상되어 98.37%의 정확도를 기록하였고, V2 35-클래스 분류에서는 50% 이상의 성능 향상을 이뤄내 97.0%의 정확도를 달성하였다.