12일 전
AnyCap 프로젝트: 제어 가능한 옴니모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크
Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu

초록
제어 가능한 캡셔닝은 정확한 다중 모달 정렬과 지시사항 준수에 필수적이지만, 기존 모델들은 종종 세밀한 제어와 신뢰성 있는 평가 프로토콜을 갖추지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 모델, 데이터셋, 그리고 평가를 아우르는 통합적인 솔루션인 AnyCap 프로젝트를 소개합니다. 우리는 AnyCapModel (ACM)을 제안하는데, 이는 기존의 기본 모델을 재훈련하지 않고도 옴니-모달 캡셔닝의 제어 가능성을 향상시키는 경량 플러그 앤 플레이 프레임워크입니다. ACM은 기본 모델에서 생성된 원래 캡셔닝을 재사용하면서 사용자 지시사항과 모달 특성을 통합하여 개선된 캡셔닝을 생성합니다. 제어 가능한 다중 모달 캡셔닝에서 데이터 부족 문제를 해결하기 위해, 우리는 세 가지 모달, 28개의 사용자 지시사항 유형, 그리고 30만 개의 고품질 데이터 항목을 포함하는 AnyCapDataset (ACD)를 구축했습니다. 또한, AnyCapEval이라는 새로운 벤치마크를 제안하는데, 이는 내용의 정확성과 스타일적 충실성을 분리하여 더 신뢰할 수 있는 평가 지표를 제공합니다. ACM은 다양한 기본 모델에서 AnyCapEval에서 캡셔닝 품질을 크게 향상시키며, 특히 ACM-8B는 GPT-4o의 내용 점수를 45%, 스타일 점수를 12% 높였습니다. 또한 MIA-Bench 및 VidCapBench와 같은 널리 사용되는 벤치마크에서도 상당한 성능 향상을 보여주었습니다.