IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativer Visualisierung
IF-Bench: Benchmarking und Verbesserung von MLLMs für Infrarotbilder mit generativer Visualisierung
Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

Abstract
Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben zu beeindruckenden Ergebnissen auf verschiedenen Benchmark-Datenbanken geführt. Ihre Fähigkeit zur Verarbeitung von Infrarotbildern bleibt jedoch bisher unerforscht. Um diese Lücke zu schließen, stellen wir IF-Bench vor – die erste hochwertige Benchmark, die speziell zur Bewertung der multimodalen Verständnisfähigkeit von Infrarotbildern entwickelt wurde. IF-Bench umfasst 499 Bilder aus 23 Infrarot-Datensätzen sowie 680 sorgfältig zusammengestellte Paare aus visuellen Fragen und Antworten, die zehn wesentliche Dimensionen des Bildverstehens abdecken. Auf Basis dieser Benchmark führen wir eine systematische Evaluation von über 40 offenen und geschlossenen MLLMs durch, wobei wir zyklische Bewertung, bilingualen Assessments und hybride Urteilsstrategien einsetzen, um die Zuverlässigkeit der Ergebnisse zu erhöhen. Unsere Analyse zeigt, wie Modellgröße, Architektur und Inferenzparadigmen das Verständnis von Infrarotbildern beeinflussen, und liefert wertvolle Erkenntnisse für dieses Forschungsfeld. Darüber hinaus schlagen wir eine trainingsfreie, generative visuelle Prompting-Methode (GenViP) vor, die fortschrittliche Bildbearbeitungsmodelle nutzt, um Infrarotbilder in semantisch und räumlich korrekte RGB-Gegenstücke zu transformieren und somit die Domänenverteilungsverschiebung zu verringern. Ausführliche Experimente belegen, dass unsere Methode konsistent signifikante Leistungssteigerungen über eine breite Palette von MLLMs hervorruft.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.