AnyCap-Projekt: Ein einheitliches Framework, Datensatz und Benchmark für steuerbares omni-modales Captioning

Steuerbare Bildunterschriften sind für eine präzise multimodale Ausrichtung und die Befolgung von Anweisungen unerlässlich, jedoch fehlen den bestehenden Modellen oft feingranulare Steuerungsmöglichkeiten und verlässliche Evaluationsprotokolle. Um diese Lücke zu schließen, stellen wir das AnyCap-Projekt vor, eine integrierte Lösung, die Modell, Datensatz und Evaluation umfasst. Wir führen AnyCapModel (ACM) ein, einen leichten Plug-and-Play-Rahmen, der die Steuerbarkeit bestehender Grundmodells für omnimodale Bildunterschriften ohne erneutes Training des Basismodells verbessert. ACM nutzt die ursprünglichen Bildunterschriften der Basismodelle und integriert gleichzeitig Benutzeranweisungen und Modalitätsmerkmale, um verbesserte Bildunterschriften zu generieren. Um das Problem der Datenknappheit bei steuerbaren multimodalen Bildunterschriften zu lösen, erstellen wir AnyCapDataset (ACD), der drei Modalitäten, 28 Benutzeranweisungstypen und 300\,000 hochwertige Dateneinträge abdeckt. Darüber hinaus schlagen wir AnyCapEval vor, eine neue Benchmark-Metrik, die durch Trennung von Inhaltsgenauigkeit und stilistischer Treue verlässlichere Evaluationskriterien für steuerbare Bildunterschriften bietet. ACM verbessert die Qualität der Bildunterschriften erheblich bei einer Vielzahl von Basismodellen auf AnyCapEval. Besonders erwähnenswert ist, dass ACM-8B die Inhaltsbewertungen von GPT-4o um 45\% und die Stilbewertungen um 12\% erhöht sowie erhebliche Fortschritte bei weit verbreiteten Benchmarks wie MIA-Bench und VidCapBench erzielt.