MAtch, eXpand and Improve: 언어 지식을 활용한 제로샷 행동 인식을 위한 비지도 미세 조정

대규모 시각-언어(VL) 모델은 시각적 모달리티와 텍스트 모달리티 간의 표현을 일치시키는 데에서 엄청난 성공을 보여주었습니다. 이는 제로샷 인식, 이미지 생성 및 편집, 그리고 많은 다른 흥미로운 작업들에서 놀라운 진전을 가져왔습니다. 그러나 VL 모델은 객체를 과도하게 표현하면서 동사에는 상대적으로 적은 주의를 기울이는 경향이 있으며, 최상의 제로샷 행동 인식 성능을 위해서는 비디오 데이터에 대한 추가적인 조정이 필요합니다. 이전 연구에서는 대규모 완전 주석화된 데이터에 의존했지만, 본 연구에서는 비지도 학습 접근법을 제안합니다. 우리는 비주석화된 비디오들의 컬렉션과 짝을 이루지 않은 행동 사전을 사용하여 VL 모델을 제로샷 및 소수 샷 행동 인식에 적응시킵니다. 이를 바탕으로 대형 언어 모델과 VL 모델을 활용하여 각 비주석화된 비디오에 대해 매칭, 텍스트 확장 및 캡셔닝을 통해 텍스트 백을 구축합니다. 이러한 백들을 다중 인스턴스 학습 설정에서 사용하여 이미지-텍스트 백본을 비디오 데이터에 적응시키고 있습니다. 비록 비주석화된 비디오 데이터에서 fine-tuning되었지만, 우리의 결과 모델들은 여러 가지 미처 본 적 없는 제로샷 하류 작업으로의 높은 전이 가능성을 보여주며, 기본 VL 모델 성능을 최대 14%까지 개선하며, 제로샷 및 소수 샷 비디오 인식 전이에서 완전히 지도된 베이스라인들과 비교해도 우수한 성능을 발휘합니다. 코드는 나중에 \url{https://github.com/wlin-at/MAXI}에서 공개될 예정입니다.