2달 전

Grounded Language-Image Pre-training 지향적 언어-이미지 사전학습

Li, Liunian Harold ; Zhang, Pengchuan ; Zhang, Haotian ; Yang, Jianwei ; Li, Chunyuan ; Zhong, Yiwu ; Wang, Lijuan ; Yuan, Lu ; Zhang, Lei ; Hwang, Jenq-Neng ; Chang, Kai-Wei ; Gao, Jianfeng
Grounded Language-Image Pre-training
지향적 언어-이미지 사전학습
초록

이 논문은 객체 수준의, 언어 인식 가능한, 그리고 의미가 풍부한 시각적 표현을 학습하기 위한 지지된 언어-이미지 사전학습(GLIP) 모델을 제시합니다. GLIP는 객체 검출과 문구 정렬(phrase grounding)을 사전학습 단계에서 통합합니다. 이러한 통합은 두 가지 이점을 가져옵니다: 1) GLIP는 검출과 정렬 데이터 모두로부터 학습하여 두 작업을 개선하고 좋은 정렬 모델을 구축할 수 있습니다; 2) GLIP는 자기 학습 방식으로 정렬 박스를 생성함으로써 대규모 이미지-텍스트 쌍을 활용할 수 있어, 학습된 표현이 의미적으로 풍부해집니다.실험에서는 2700만 건의 정렬 데이터,其中包括300万个人类标注的图像-文本对和2400万个网络爬取的图像-文本对(在这一部分中,我将根据上下文调整为韩语,以确保流畅性和准确性),即包括300万个人类标注的图像-文本对和2400万个网络爬取的图像-文本对上进行GLIP的预训练。学得的表现形式展示了强大的零样本和少样本迁移能力,适用于各种对象级别的识别任务。为了保持一致性并优化句子结构,这部分可以翻译为:실험에서는 2700만 건의 정렬 데이터, 즉 300만 건의 인간 주석 이미지-텍스트 쌍과 2400만 건의 웹 크롤링 이미지-텍스트 쌍에서 GLIP를 사전학습했습니다. 학습된 표현은 다양한 객체 수준 인식 작업에 대한 강력한 제로샷(zero-shot) 및 소수 샷(few-shot) 전이 능력을 보여줍니다. 1) COCO와 LVIS에서 직접 평가할 때(사전학습 중 COCO 이미지를 전혀 보지 않은 상태에서), GLIP는 각각 49.8 AP와 26.9 AP를 달성하여 많은 감독된 기준 모델들을凌驾(초월)했습니다.为了保持一致性并优化句子结构,这部分可以翻译为:1) COCO와 LVIS에서 직접 평가할 때(사전학습 중 COCO 이미지를 전혀 보지 않은 상태에서), GLIP는 각각 49.8 AP와 26.9 AP를 달성하여 많은 감독된 기준 모델들을 초월했습니다.2) COCO에서 미세 조정(fine-tuned) 후, GLIP는 val 세트에서 60.8 AP, test-dev 세트에서 61.5 AP를 달성하여 이전 최고 성능(SoTA)을凌驾(초월)했습니다.为了保持一致性并优化句子结构,这部分可以翻译为:2) COCO에서 미세 조정(fine-tuned) 후, GLIP는 val 세트에서 60.8 AP, test-dev 세트에서 61.5 AP를 달성하여 이전 최고 성능(SoTA)을 초월했습니다.3) 13개의 하류 객체 검출 작업으로 전이될 때, 1-shot GLIP가 완전히 감독된 Dynamic Head와 경쟁力(경쟁력)을 보였습니다.为了保持一致性并优化句子结构,这部分可以翻译为:3) 13개의 하류 객체 검출 작업으로 전이될 때, 1-shot GLIP가 완전히 감독된 Dynamic Head와 경쟁력을 보였습니다.코드는 https://github.com/microsoft/GLIP 에서 제공됩니다.最终版本如下:이 논문은 객체 수준의, 언어 인식 가능한, 그리고 의미가 풍부한 시각적 표현을 학습하기 위한 지지된 언어-이미지 사전학습(GLIP) 모델을 제시합니다. GLIP는 객체 검출과 문구 정렬(phrase grounding)을 사전학습 단계에서 통합합니다. 이러한 통합은 두 가지 이점을 가져옵니다: 1) GLIP는 검출과 정렬 데이터 모두로부터 학습하여 두 작업을 개선하고 좋은 정렬 모델을 구축할 수 있습니다; 2) GLIP는 자기 학습 방식으로 정렬 박스를 생성함으로써 대규모 이미지-텍스트 쌍을 활용할 수 있어, 학습된 표현이 의미적으로 풍부해집니다.실험에서는 2700만 건의 정렬 데이터, 즉 300만 건의 인간 주석 이미지-텍스트 쌍과 2400만 건의 웹 크롤링 이미지-텍스트 쌍에서 GLIP를 사전학습했습니다. 학습된 표현은 다양한 객체 수준 인식 작업에 대한 강력한 제로샷(zero-shot) 및 소수 샷(few-shot) 전이 능력을 보여줍니다.1) COCO와 LVIS에서 직접 평가할 때(사전학습 중 COCO 이미지를 전혀 보지 않은 상태에서), GLIP는 각각 49.8 AP와 26.9 AP를 달성하여 많은 감독된 기준 모델들을 초월했습니다.2) COCO에서 미세 조정(fine-tuned) 후, GLIP는 val 세트에서 60.8 AP, test-dev 세트에서 61.5 AP를 달성하여 이전 최고 성능(SoTA)을 초월했습니다.3) 13개의 하류 객체 검출 작업으로 전이될 때, 1-shot GLIP가 완전히 감독된 Dynamic Head와 경쟁력을 보였습니다.코드는 https://github.com/microsoft/GLIP 에서 제공됩니다.

Grounded Language-Image Pre-training 지향적 언어-이미지 사전학습 | 최신 연구 논문 | HyperAI초신경