HumanSense Benchmark-Datensatz
Datum
HumanSense Benchmark ist ein Benchmark-Datensatz zur Bewertung der menschlichen Wahrnehmung, der 2025 von der Xi'an Jiaotong Universität in Zusammenarbeit mit der Ant Group veröffentlicht wurde. Die zugehörige Forschungsarbeit trägt den Titel „HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextsensitiven Reaktionen durch logisches MLLMsZiel ist es, die interaktiven Fähigkeiten des Modells in der realen Welt unter der Fusion multimodaler Informationen wie Bild, Ton und Text umfassend zu messen.
Dieser Datensatz enthält 3.291 videobasierte und 591 audiobasierte Fragen, die 15 Aufgaben mit steigendem Schwierigkeitsgrad abdecken. Die Aufgabenstruktur ist eine vierstufige Pyramide, bestehend aus:
- L1–L2-Wahrnehmungsschichten: Fundamentale und komplexe Wahrnehmungsfähigkeiten für Sehen, Hören und intermodale Wahrnehmung;
- L3-Verständnisebene: Die Fähigkeit, implizite Beziehungen, Emotionen und Zustände auf der Grundlage interaktiver Situationen zu verstehen;
- L4-Reaktionsschicht: Strategische und kontextbezogene Reaktionsfähigkeiten in interaktiven Szenarien.
Dieser Datensatz generiert Fragen aus realen Videos, Audioaufnahmen und multimodalen Dialogen. Er basiert auf verschiedenen Open-Source-Datensätzen und Aufnahmen realer Szenen und deckt ein breites Spektrum an Aufgaben der nutzerzentrierten Interaktion ab – von der Erkennung von Aussehen und Emotionen bis hin zum Beziehungsverständnis und psychologischen Dialogen. Er zählt zu den aktuellen Benchmarks für multimodale Evaluierung und bildet reale menschliche Kommunikationsszenarien besonders gut ab.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.