2달 전

이미지作为一种外语: BEiT在所有视觉和视觉-语言任务中的预训练 注意:这里“作为一种外语”部分的翻译可能需要根据上下文调整,因为直接翻译可能会显得不太自然。如果需要更符合韩语表达习惯的版本,请告知。

Wenhui Wang; Hangbo Bao; Li Dong; Johan Bjorck; Zhiliang Peng; Qiang Liu; Kriti Aggarwal; Owais Khan Mohammed; Saksham Singhal; Subhojit Som; Furu Wei
이미지作为一种外语: BEiT在所有视觉和视觉-语言任务中的预训练
注意:这里“作为一种外语”部分的翻译可能需要根据上下文调整,因为直接翻译可能会显得不太自然。如果需要更符合韩语表达习惯的版本,请告知。
초록

언어, 시각, 그리고 다중모달 사전학습의 큰 융합이 나타나고 있습니다. 본 연구에서는 이 두 분야에서 최고 수준의 전이 성능을 달성하는 일반적인 다중모달 기초 모델인 BEiT-3를 소개합니다. 구체적으로, 우리는 백본 아키텍처, 사전학습 작업, 그리고 모델 확장을 세 가지 측면에서 이 융합을 발전시킵니다. 일반적인 모델링을 위해 Multiway Transformers를 도입하였으며, 이 모듈형 아키텍처는 깊은 융합과 모달리티 특화 인코딩을 모두 가능하게 합니다. 공유된 백본을 기반으로, 우리는 이미지(Imglish), 텍스트(영어), 그리고 이미지-텍스트 쌍("병렬 문장")에 대해 통합된 방식으로 마스킹된 '언어' 모델링을 수행합니다. 실험 결과 BEiT-3가 객체 검출(COCO), 의미 분할(ADE20K), 이미지 분류(ImageNet), 시각적 추론(NLVR2), 시각적 질문 응답(VQAv2), 이미지 캡셔닝(COCO), 그리고 크로스-모달 검색(Flickr30K, COCO) 등 다양한 작업에서 최고 수준의 성능을 보임을 확인하였습니다.

이미지作为一种外语: BEiT在所有视觉和视觉-语言任务中的预训练 注意:这里“作为一种外语”部分的翻译可能需要根据上下文调整,因为直接翻译可能会显得不太自然。如果需要更符合韩语表达习惯的版本,请告知。 | 최신 연구 논문 | HyperAI초신경