HyperAI초신경
12일 전

AnyCap 프로젝트: 제어 가능한 옴니모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크

Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
AnyCap 프로젝트: 제어 가능한 옴니모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크
초록

제어 가능한 캡셔닝은 정확한 다중 모달 정렬과 지시사항 준수에 필수적이지만, 기존 모델들은 종종 세밀한 제어와 신뢰성 있는 평가 프로토콜을 갖추지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 모델, 데이터셋, 그리고 평가를 아우르는 통합적인 솔루션인 AnyCap 프로젝트를 소개합니다. 우리는 AnyCapModel (ACM)을 제안하는데, 이는 기존의 기본 모델을 재훈련하지 않고도 옴니-모달 캡셔닝의 제어 가능성을 향상시키는 경량 플러그 앤 플레이 프레임워크입니다. ACM은 기본 모델에서 생성된 원래 캡셔닝을 재사용하면서 사용자 지시사항과 모달 특성을 통합하여 개선된 캡셔닝을 생성합니다. 제어 가능한 다중 모달 캡셔닝에서 데이터 부족 문제를 해결하기 위해, 우리는 세 가지 모달, 28개의 사용자 지시사항 유형, 그리고 30만 개의 고품질 데이터 항목을 포함하는 AnyCapDataset (ACD)를 구축했습니다. 또한, AnyCapEval이라는 새로운 벤치마크를 제안하는데, 이는 내용의 정확성과 스타일적 충실성을 분리하여 더 신뢰할 수 있는 평가 지표를 제공합니다. ACM은 다양한 기본 모델에서 AnyCapEval에서 캡셔닝 품질을 크게 향상시키며, 특히 ACM-8B는 GPT-4o의 내용 점수를 45%, 스타일 점수를 12% 높였습니다. 또한 MIA-Bench 및 VidCapBench와 같은 널리 사용되는 벤치마크에서도 상당한 성능 향상을 보여주었습니다.