HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs

Abstract

Obwohl multimodale große Sprachmodelle (MLLMs) ein großes Potenzial für die Erreichung wirklich menschenähnlicher Interaktionen zeigen, wird der Fortschritt durch den Mangel an feinkörnigen Evaluierungsrahmen für menschenzentrierte Szenarien behindert, die sowohl das Verständnis komplexer menschlicher Absichten als auch die Bereitstellung empathischer, kontextbewusster Antworten umfassen. Hier stellen wir HumanSense vor, einen umfassenden Benchmark, der darauf abzielt, die menschenzentrierten Wahrnehmungs- und Interaktionsfähigkeiten von MLLMs zu bewerten, wobei besonderes Augenmerk auf das tiefe Verständnis erweiterter multimodaler Kontexte und die Formulierung rationaler Rückmeldungen liegt. Unsere Evaluierung zeigt, dass führende MLLMs weiterhin erhebliches Verbesserungspotenzial besitzen, insbesondere bei anspruchsvollen, interaktionsorientierten Aufgaben. Die Ergänzung visueller Eingaben durch audio- und textbasierte Informationen führt zu signifikanten Verbesserungen, und Omni-modale Modelle erzielen Vorteile bei diesen Aufgaben – begründet durch die Beobachtung, dass angemessene Rückmeldungen aus einer kontextuellen Analyse der Bedürfnisse und Emotionen des Gesprächspartners resultieren. Daraus folgern wir, dass die Schlüsselkompetenz hierbei die Schlussfolgerungsfähigkeit (Reasoning) darstellt. Wir entwickeln einen mehrstufigen, modality-progressiven Ansatz des Verstärkungslernens, der HumanSense-Omni-Reasoning hervorbringt und die Leistung bei höherstufigem Verständnis und interaktiven Aufgaben erheblich steigert. Zudem beobachten wir, dass erfolgreiche Schlussfolgerungsprozesse offenbar konsistente Denkmuster aufweisen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HumanSense: Von multimodaler Wahrnehmung zu empathischen, kontextbewussten Antworten durch Schlussfolgerung mit MLLMs | Forschungsarbeiten | HyperAI