HyperAIHyperAI

Command Palette

Search for a command to run...

AnyCap 프로젝트: 제어 가능한 옴니모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크

초록

제어 가능한 캡셔닝은 정확한 다중 모달 정렬과 지시사항 준수에 필수적이지만, 기존 모델들은 종종 세밀한 제어와 신뢰성 있는 평가 프로토콜을 갖추지 못하고 있습니다. 이 문제를 해결하기 위해, 우리는 모델, 데이터셋, 그리고 평가를 아우르는 통합적인 솔루션인 AnyCap 프로젝트를 소개합니다. 우리는 AnyCapModel (ACM)을 제안하는데, 이는 기존의 기본 모델을 재훈련하지 않고도 옴니-모달 캡셔닝의 제어 가능성을 향상시키는 경량 플러그 앤 플레이 프레임워크입니다. ACM은 기본 모델에서 생성된 원래 캡셔닝을 재사용하면서 사용자 지시사항과 모달 특성을 통합하여 개선된 캡셔닝을 생성합니다. 제어 가능한 다중 모달 캡셔닝에서 데이터 부족 문제를 해결하기 위해, 우리는 세 가지 모달, 28개의 사용자 지시사항 유형, 그리고 30만 개의 고품질 데이터 항목을 포함하는 AnyCapDataset (ACD)를 구축했습니다. 또한, AnyCapEval이라는 새로운 벤치마크를 제안하는데, 이는 내용의 정확성과 스타일적 충실성을 분리하여 더 신뢰할 수 있는 평가 지표를 제공합니다. ACM은 다양한 기본 모델에서 AnyCapEval에서 캡셔닝 품질을 크게 향상시키며, 특히 ACM-8B는 GPT-4o의 내용 점수를 45%, 스타일 점수를 12% 높였습니다. 또한 MIA-Bench 및 VidCapBench와 같은 널리 사용되는 벤치마크에서도 상당한 성능 향상을 보여주었습니다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
AnyCap 프로젝트: 제어 가능한 옴니모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크 | 문서 | HyperAI초신경