2달 전
오픈 도메인 시각적 엔티티 인식: 수백만 개의 위키백과 엔티티 인식을 향하여
Hu, Hexiang ; Luan, Yi ; Chen, Yang ; Khandelwal, Urvashi ; Joshi, Mandar ; Lee, Kenton ; Toutanova, Kristina ; Chang, Ming-Wei

초록
대규모 다중 모드 사전 학습 모델인 CLIP 및 PaLI는 다양한 시각적 영역과 작업에서 강력한 일반화 능력을 보여줍니다. 그러나 기존의 이미지 분류 벤치마크는 종종 특정 영역(예: 실외 이미지)이나 특정 작업(예: 식물 종 분류)에 대한 인식을 평가하므로, 사전 학습된 기초 모델이 보편적인 시각 인식기인지 평가하는 데 부족합니다. 이를 해결하기 위해, 우리는 공식적으로 오픈 도메인 시각 엔티티 인식(OVEN) 작업을 제시합니다. 이 작업에서는 모델이 텍스트 쿼리에 따라 이미지를 위키백과 엔티티와 연결해야 합니다. 우리는 14개의 기존 데이터셋을 재활용하여 모든 라벨을 단일 라벨 공간인 위키백과 엔티티로 정렬하여 OVEN-Wiki를 구축했습니다. OVEN은 600만 개 이상의 가능한 위키백과 엔티티 중에서 선택하도록 모델을 도전시키며, 이는 가장 많은 라벨 수를 가진 일반적인 시각 인식 벤치마크입니다. 최신 사전 학습 모델에 대한 우리의 연구는 대규모 라벨 공간으로의 일반화 여지가 크다는 것을 밝혔습니다. 우리는 PaLI 기반 자기 회귀 시각 인식 모델이 미세 조정(fine-tuning) 과정에서 전혀 본 적 없는 위키백과 엔티티에서도 매우 우수한 성능을 보이는 것을 확인했습니다. 또한, 기존의 사전 학습 모델들이 서로 다른 장점을 가지고 있음을 발견했습니다: PaLI 기반 모델들은 전반적으로 더 높은 성능을 얻지만, CLIP 기반 모델들은 꼬리 엔티티(tail entities)를 인식하는 데 더 우수합니다.