15일 전

사전 훈련된 다중모달 대규모 모델로부터의 동적 자기적응 다중스케일 정제를 통한 효율적인 교차모달 표현 학습

Zhengyang Liang, Meiyu Liang, Wei Huang, Yawen Li, Zhe Xue
사전 훈련된 다중모달 대규모 모델로부터의 동적 자기적응 다중스케일 정제를 통한 효율적인 교차모달 표현 학습
초록

최근 몇 년 동안 사전 훈련된 다중모달 대규모 모델은 다양한 다중모달 응용 분야에서 뛰어난 성능을 보이며 광범위한 주목을 받고 있다. 그러나 이러한 모델의 훈련을 위해 요구되는 막대한 계산 자원과 방대한 데이터셋은 계산 자원이 제한된 환경에서의 배포에 있어 중대한 장벽을 형성하고 있다. 이 문제를 해결하기 위해, 본 연구에서는 사전 훈련된 다중모달 대규모 모델로부터 동적 자기적응 다중스케일 증류를 통한 효율적인 교차모달 표현 학습을 처음으로 제안한다. 기존의 증류 방법과 달리, 본 전략은 다중스케일 관점을 도입하여 사전 훈련된 다중모달 대규모 모델의 구조적 지식을 효과적으로 추출함으로써, 학습 모델이 교사 모델의 포괄적이고 세밀한 이해를 효과적으로 습득할 수 있도록 한다. 각 증류 손실을 균형 잡히고 효율적으로 최적화하기 위해, 수동적인 손실 가중치 조정이 필요 없으며 증류 과정 중에 각 손실 항목을 동적으로 조절하는 동적 자기적응 증류 손실 밸런서라는 새로운 구성 요소를 제안한다. 본 방법론은 사전 훈련된 다중모달 대규모 모델의 출력 특징과 원본 이미지 수준의 정보만을 활용하여 모델을 간소화하므로, 최소한의 계산 자원만으로도 수행 가능하다. 이 효율적인 접근법은 다양한 응용 분야에 적합하며, 자원이 제한된 환경에서도 고급 다중모달 기술의 배포를 가능하게 한다. 광범위한 실험을 통해 제안된 방법이 모델 복잡성과 훈련 비용을 크게 감소시키면서도 높은 성능을 유지함을 입증하였다. 더불어, 본 연구에서 증류된 학습 모델은 이미지 수준의 정보만을 사용하여 교차모달 검색 작업에서 최신 기술 수준의 성능을 달성하며, 이전의 지역 수준 정보에 의존했던 기법들을 뛰어넘었다.

사전 훈련된 다중모달 대규모 모델로부터의 동적 자기적응 다중스케일 정제를 통한 효율적인 교차모달 표현 학습 | 최신 연구 논문 | HyperAI초신경