12일 전

DeViSE: 딥 시각-세마틱 임베딩 모델

{Marc'Aurelio Ranzato, Jeff Dean, Samy Bengio, Jon Shlens, Greg S. Corrado, Andrea Frome, Tomas Mikolov}
DeViSE: 딥 시각-세마틱 임베딩 모델
초록

현대의 시각 인식 시스템은 대량의 객체 카테고리에 대해 확장되는 데 있어 종종 한계를 겪는다. 이러한 제한은 객체 카테고리 수가 증가함에 따라 레이블이 부여된 이미지 형태의 충분한 학습 데이터를 확보하는 것이 점점 더 어려워지기 때문이다. 이 문제의 해결책 중 하나는 레이블이 부여되지 않은 텍스트 데이터와 같은 다른 데이터 소스를 활용하여 시각 모델을 학습시키고 예측을 제약하는 것이다. 본 논문에서는 레이블이 부여된 이미지 데이터뿐 아니라 레이블이 없는 텍스트로부터 추출한 의미 정보를 함께 사용하여 시각 객체를 식별하도록 학습된 새로운 딥 시각-의미 임베딩 모델을 제안한다. 우리는 이 모델이 1000개 클래스로 구성된 ImageNet 객체 인식 과제에서 최신 기술 수준의 성능을 달성하면서도, 더 의미적으로 타당한 오류를 범함을 보여주며, 또한 학습 과정에서 관측되지 않은 수만 개의 이미지 레이블에 대한 예측을 가능하게 하는 의미 정보의 활용 가능성을 입증한다. 의미 지식을 활용함으로써 제로샷(Zero-shot) 예측 성능은 최대 65% 향상되며, 시각 모델이 한 번도 접한 적 없는 수천 개의 새로운 레이블에 대해 최대 10%의 정확도(히트율)를 달성할 수 있다.

DeViSE: 딥 시각-세마틱 임베딩 모델 | 최신 연구 논문 | HyperAI초신경