웹리 감독된 개념 확장 기법을 이용한 일반 목적 시각 모델의 개선

일반 목적 시각(GPV) 시스템은 구조적 변경 없이 다양한 시각적 작업을 해결하도록 설계된 모델입니다. 현재 GPV는 주로 대규모 완전 감독 데이터셋에서 기술과 개념을 학습합니다. 각 기술에 대한 모든 개념을 학습하기 위해 데이터를 수집하여 수만 개의 개념으로 GPV를 확장하는 것은 금세 비효율적이 되어 제약을 받게 됩니다. 본 연구에서는 효과적이고 저렴한 대안을 제시합니다: 감독 데이터셋에서 기술을 학습하고, 웹 이미지 검색에서 개념을 학습하며, GPV의 중요한 특성인 기술 간 시각 지식 전송 능력을 활용합니다. 10,000개 이상의 시각적 개념을 포함하는 100만 개 이상의 이미지 데이터셋을 사용하여 두 가지 기존 GPV(GPV-1 및 VL-T5)에 대한 3가지 벤치마크에서 웹 기반 감독 개념 확장을 시연합니다: 5개의 COCO 기반 데이터셋(80개 주요 개념), OpenImages와 VisualGenome 저장소를 바탕으로 새로 구성된 5개의 데이터셋 시리즈(약 500개의 개념), 그리고 웹에서 파생된 데이터셋(10,000개 이상의 개념)입니다. 또한 우리는 분류와 위치 추정 같은 시각적 작업부터 QA와 캡셔닝 같은 시각+언어 작업, 그리고 인간-물체 상호작용 검출과 같은 보다 특화된 작업까지 다양한 작업을 지원하는 새로운 아키텍처인 GPV-2를 제안합니다. GPV-2는 웹 데이터로부터 크게 혜택을 받으며, 이 벤치마크들에서 GPV-1과 VL-T5보다 우수한 성능을 보여줍니다. 우리의 데이터, 코드 및 웹 데모는 https://prior.allenai.org/projects/gpv2 에서 확인할 수 있습니다.