16일 전

Vilio: 증오스러운 미모에 적용된 최신 비전-언어 모델

Niklas Muennighoff

초록

이 연구는 최신의 시각-언어 모델(Visio-Linguistic Models)을 구현한 Vilio를 제시하며, 이를 해슬리 흑색 멘즈(Hateful Memes) 데이터셋에 적용한 사례를 다룬다. 구현된 모델들은 통일된 코드베이스에 통합되었으며, 성능 향상을 위해 개선·조정되었다. Vilio의 목적은 시각-언어 문제에 대한 사용자 친화적인 시작점 제공에 있다. Vilio에 구현된 5종의 다양한 V+L 모델을 앙상블한 결과, 총 3,300명의 참가자 중 2위를 차지하며 뛰어난 성능을 입증하였다. 관련 코드는 https://github.com/Muennighoff/vilio 에 공개되어 있다.