11일 전

LXMERT 모델 압축을 통한 시각 질문 응답

Maryam Hashemi, Ghazaleh Mahmoudi, Sara Kodeiri, Hadi Sheikhi, Sauleh Eetemadi
LXMERT 모델 압축을 통한 시각 질문 응답
초록

텍스트-이미지 쌍에 대한 시각-언어 과제에서 크로스모달 표현을 학습하기 위해 LXMERT와 같은 대규모 사전 학습 모델이 점점 인기를 끌고 있다. 로또 티켓 가설(Lottery Ticket Hypothesis)에 따르면, 자연어 처리(NLP) 및 컴퓨터 비전 모델 내에는 고립된 상태에서 완전한 성능까지 학습이 가능한 더 작은 하위 네트워크가 존재한다. 본 논문에서는 이러한 관찰을 바탕으로, VQA 과제에서 LXMERT를 미세조정(fine-tuning)할 때 이러한 학습 가능한 하위 네트워크가 존재하는지 평가한다. 또한 정확도에 큰 손실 없이 얼마나 많은 양의 프루닝(pruning)이 가능한지 분석함으로써 모델 크기 대비 성능 향상의 경제성을 검토한다. 실험 결과, LXMERT는 정확도 손실이 3%에 불과한 수준에서 크기를 40%~60%까지 효과적으로 축소할 수 있음을 입증하였다.

LXMERT 모델 압축을 통한 시각 질문 응답 | 최신 연구 논문 | HyperAI초신경