HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 2 Tagen

IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativer Visualisierung

Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativer Visualisierung

Abstract

Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben zu beeindruckenden Ergebnissen auf verschiedenen Benchmark-Datenbanken geführt. Ihre Fähigkeit zur Verarbeitung von Infrarotbildern bleibt jedoch bisher unerforscht. Um diese Lücke zu schließen, stellen wir IF-Bench vor – die erste hochwertige Benchmark, die speziell zur Bewertung der multimodalen Verständnisfähigkeit von Infrarotbildern entwickelt wurde. IF-Bench umfasst 499 Bilder aus 23 Infrarot-Datensätzen sowie 680 sorgfältig zusammengestellte Paare aus visuellen Fragen und Antworten, die zehn wesentliche Dimensionen des Bildverstehens abdecken. Auf Basis dieser Benchmark führen wir eine systematische Evaluation von über 40 offenen und geschlossenen MLLMs durch, wobei wir zyklische Bewertung, bilingualen Assessments und hybride Urteilsstrategien einsetzen, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Unsere Analyse zeigt, wie Modellgröße, Architektur und Inferenzparadigmen das Verständnis von Infrarotbildern beeinflussen, und liefert wertvolle Erkenntnisse für dieses Forschungsfeld. Darüber hinaus schlagen wir eine trainingsfreie, generative visuelle Prompting-Methode (GenViP) vor, die fortschrittliche Bildbearbeitungsmodelle nutzt, um Infrarotbilder in semantisch und räumlich korrekte RGB-Gegenstücke zu transformieren und somit die Domänenverteilungsverschiebung zu verringern. Ausführliche Experimente belegen, dass unsere Methode konsistent signifikante Leistungssteigerungen über eine breite Palette von MLLMs hervorruft.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-Co-Programmierung
Einsatzbereite GPUs
Bestpreis

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativer Visualisierung | Forschungsarbeiten | HyperAI