2달 전
거대事前학습 이미지 모델이 보편적 표현을 추출할 수 있을까? 注意:在韩文中,“事前学習”应为“사전 학습”,因此正确的翻译应该是: 거대 사전 학습 이미지 모델이 보편적 표현을 추출할 수 있을까?
Lin, Yutong ; Liu, Ze ; Zhang, Zheng ; Hu, Han ; Zheng, Nanning ; Lin, Stephen ; Cao, Yue

초록
동결된 사전 학습 모델은 전이 학습을 위한 사전 학습 후 미세 조정 패러다임의 유력한 대안으로 자리 잡았습니다. 그러나 동결된 모델은 하위 작업에 적응하기 위한 매개변수가 상대적으로 적어, 입력/출력 형식과 가치 있는 정보 유형이 크게 다를 수 있는 컴퓨터 비전 분야에서 문제가 됩니다. 본 논문에서는 객체 검출, 의미 분할, 비디오 행동 인식 등 다양한 컴퓨터 비전 작업에 동결된 사전 학습 모델을 적용한 연구를 제시합니다. 이 경험적 분석을 통해 본 연구는 어떤 사전 학습 작업이 동결 설정에 가장 잘 맞는지, 동결 설정을 다양한 하위 작업에 더 유연하게 만드는 방법, 그리고 더 큰 모델 크기의 효과에 대한 질문들을 답합니다. 또한 30억 개의 매개변수(SwinV2-G)를 가진 거대한 동결된 사전 학습 모델의 성능 상한선을 검토하여, 단 하나의 공유된 동결 기반 네트워크로 다양한 주요 벤치마크에서 경쟁력 있는 성능을 달성하는 것을 확인했습니다: COCO 객체 검출 테스트-개발 데이터셋에서 60.0 박스 mAP와 52.2 마스크 mAP, ADE20K 의미 분할 데이터셋에서 57.6 검증 mIoU, Kinetics-400 행동 인식 데이터셋에서 81.7%의 top-1 정확도입니다. 이 연구를 통해 우리는 동결된 사전 학습 이미지 모델에 대한 이 유망한 접근 방식에 더욱 많은 관심을 불러일으키고자 합니다.