HyperAIHyperAI

Command Palette

Search for a command to run...

AnyCap-Projekt: Ein einheitliches Framework, Datensatz und Benchmark für steuerbares omni-modales Captioning

Zusammenfassung

Steuerbare Bildunterschriften sind für eine präzise multimodale Ausrichtung und die Befolgung von Anweisungen unerlässlich, jedoch fehlen den bestehenden Modellen oft feingranulare Steuerungsmöglichkeiten und verlässliche Evaluationsprotokolle. Um diese Lücke zu schließen, stellen wir das AnyCap-Projekt vor, eine integrierte Lösung, die Modell, Datensatz und Evaluation umfasst. Wir führen AnyCapModel (ACM) ein, einen leichten Plug-and-Play-Rahmen, der die Steuerbarkeit bestehender Grundmodells für omnimodale Bildunterschriften ohne erneutes Training des Basismodells verbessert. ACM nutzt die ursprünglichen Bildunterschriften der Basismodelle und integriert gleichzeitig Benutzeranweisungen und Modalitätsmerkmale, um verbesserte Bildunterschriften zu generieren. Um das Problem der Datenknappheit bei steuerbaren multimodalen Bildunterschriften zu lösen, erstellen wir AnyCapDataset (ACD), der drei Modalitäten, 28 Benutzeranweisungstypen und 300,000 hochwertige Dateneinträge abdeckt. Darüber hinaus schlagen wir AnyCapEval vor, eine neue Benchmark-Metrik, die durch Trennung von Inhaltsgenauigkeit und stilistischer Treue verlässlichere Evaluationskriterien für steuerbare Bildunterschriften bietet. ACM verbessert die Qualität der Bildunterschriften erheblich bei einer Vielzahl von Basismodellen auf AnyCapEval. Besonders erwähnenswert ist, dass ACM-8B die Inhaltsbewertungen von GPT-4o um 45% und die Stilbewertungen um 12% erhöht sowie erhebliche Fortschritte bei weit verbreiteten Benchmarks wie MIA-Bench und VidCapBench erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AnyCap-Projekt: Ein einheitliches Framework, Datensatz und Benchmark für steuerbares omni-modales Captioning | Paper | HyperAI