2달 전

ELEVATER: 언어 강화 시각 모델 평가를 위한 벤치마크 및 툴킷

Chunyuan Li; Haotian Liu; Liunian Harold Li; Pengchuan Zhang; Jyoti Aneja; Jianwei Yang; Ping Jin; Houdong Hu; Zicheng Liu; Yong Jae Lee; Jianfeng Gao
ELEVATER: 언어 강화 시각 모델 평가를 위한 벤치마크 및 툴킷
초록

자연어 감독을 통해 시각적 표현을 학습하는 것이 최근 여러 선구적인 연구에서 큰 잠재력을 보여주고 있습니다. 일반적으로 이러한 언어 강화 시각 모델은 다양한 데이터셋과 작업에 대해 뛰어난 전이 가능성을 입증하고 있습니다. 그러나, 사용하기 쉬운 평가 툴킷과 공개 벤치마크의 부족으로 인해 이러한 모델의 전이 가능성 평가가 여전히 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 ELEVATER (언어 강화 시각 작업 수준 전이 평가, Evaluation of Language-augmented Visual Task-level Transfer)를 구축했습니다. ELEVATER는 (事前学習된) 언어 강화 시각 모델을 평가하기 위한 첫 번째 벤치마크 및 툴킷입니다.ELEVATER는 세 가지 구성 요소로 이루어져 있습니다.(i) 데이터셋. 다운스트림 평가 패키지로서, 외부 지식으로 강화된 20개의 이미지 분류 데이터셋과 35개의 객체 검출 데이터셋을 포함합니다.(ii) 툴킷. 다운스트림 작업에서 모델 평가를 용이하게 하기 위해 자동 하이퍼파라미터 튜닝 툴킷을 개발했습니다.(iii) 메트릭. 샘플 효율성(제로샷 및 소수 샷)과 파라미터 효율성(선형 프로빙 및 전체 모델 미세 조정)을 측정하기 위해 다양한 평가 메트릭을 사용합니다.ELEVATER는 Computer Vision in the Wild (CVinW, 컴퓨터 비전 야외 적용) 플랫폼이며, https://computer-vision-in-the-wild.github.io/ELEVATER/ 에서 공개적으로 배포되었습니다.注释:- "事前学習された" 是日语,正确的韩语翻译应该是 "사전 학습된".- "计算机视觉野外观测" 翻译为 "컴퓨터 비전 야외 적용" 更符合韩语表达习惯。修正后的版本如下:자연어 감독을 통해 시각적 표현을 학습하는 것이 최근 여러 선구적인 연구에서 큰 잠재력을 보여주고 있습니다. 일반적으로 이러한 언어 강화 시각 모델은 다양한 데이터셋과 작업에 대해 뛰어난 전이 가능성을 입증하고 있습니다. 그러나, 사용하기 쉬운 평가 툴킷과 공개 벤치마크의 부족으로 인해 이러한 모델의 전이 가능성 평가가 여전히 어려움을 겪고 있습니다. 이를 해결하기 위해, 우리는 ELEVATER (언어 강화 시각 작업 수준 전이 평가, Evaluation of Language-augmented Visual Task-level Transfer)를 구축했습니다. ELEVATER는 사전 학습된 언어 강화 시각 모델을 평가하기 위한 첫 번째 벤치마크 및 툴킷입니다.ELEVATER는 세 가지 구성 요소로 이루어져 있습니다.(i) 데이터셋. 다운스트림 평가 패키지로서, 외부 지식으로 강화된 20개의 이미지 분류 데이터셋과 35개의 객체 검출 데이터셋을 포함합니다.(ii) 툴킷. 다운스트림 작업에서 모델 평가를 용이하게 하기 위해 자동 하이퍼파라미터 튜닝 툴킷을 개발했습니다.(iii) 메트릭. 샘플 효율성(제로샷 및 소수 샷)과 파라미터 효율성(선형 프로빙 및 전체 모델 미세 조정)을 측정하기 위해 다양한 평가 메트릭을 사용합니다.ELEVATER는 Computer Vision in the Wild (CVinW, 컴퓨터 비전 야외 적용) 플랫폼이며, https://computer-vision-in-the-wild.github.io/ELEVATER/ 에서 공개적으로 배포되었습니다.