11일 전

세밀한 뷰전-언어 이해에서의 진전 측정

Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
세밀한 뷰전-언어 이해에서의 진전 측정
초록

웹에서 수집한 대규모 이미지-텍스트 데이터에 대한 사전 훈련은 여러 시각-언어(V&L) 작업에서 급속한 발전을 가능하게 했으나, 최근 연구들은 사전 훈련된 모델이 이미지 내 관계, 동사, 숫자 등을 인식하는 등 '세부적인'(fine-grained) 이해 능력이 부족함을 지적하고 있다. 이로 인해 연구 공동체 내에서 이러한 능력을 위한 새로운 벤치마크 또는 모델 개발에 대한 관심이 증가하고 있다. 이러한 방향성에서의 진전을 더 잘 이해하고 측정하기 위해, 우리는 네 가지 경쟁적인 V&L 모델을 네 가지 세부적인 벤치마크에서 평가하였다. 분석 결과, X-VLM(Zeng 등, 2022)가 다른 기준 모델들보다 일관되게 뛰어난 성능을 보였으며, 웹 데이터의 확장보다 모델링 혁신이 성능에 더 큰 영향을 미칠 수 있음을 확인하였다. 일부 경우에서는 웹 데이터의 확장조차 성능 저하를 초래하기도 한다. X-VLM에 대한 심층적 분석을 통해, 세부적인 능력을 학습하기 위해 새로운 손실 함수와 풍부한 데이터 소스의 중요성을 강조하였다. 마지막으로 훈련 동역학을 검토한 결과, 일부 작업에서는 훈련 초기에 성능이 정점에 도달하거나, 큰 변동을 보이며 수렴하지 않는 경우가 있음을 발견하였다.

세밀한 뷰전-언어 이해에서의 진전 측정 | 최신 연구 논문 | HyperAI초신경