C3: Ein zweisprachiger Benchmark für gesprochene Dialogmodelle zur Erforschung von Herausforderungen in komplexen Gesprächen

Sprachliche Dialogmodelle (Spoken Dialogue Models, SDMs) haben in letzter Zeit erhebliche Aufmerksamkeit auf sich gezogen, da sie in der Lage sind, sprachliche Antworten direkt auf sprachliche Benutzeranfragen zu generieren. Trotz ihrer wachsenden Beliebtheit besteht jedoch eine Lücke in der Forschung, die sich umfassend mit der praktischen Wirksamkeit dieser Modelle bei der Verstehens- und Nachahmung menschlicher Gespräche beschäftigt. Dies gilt insbesondere im Vergleich zu textbasierten großen Sprachmodellen (Large Language Models, LLMs), die von umfangreichen Benchmarking-Tests profitieren. Menschliche Sprachinteraktionen sind aufgrund der spezifischen Merkmale des gesprochenen Dialogs grundsätzlich komplexer als Textinteraktionen. Eine zentrale Herausforderung stellt die Mehrdeutigkeit dar, die sowohl semantische Faktoren wie Polysemie als auch phonologische Aspekte wie Heterographie, Heteronyme und Betonungsmuster umfasst. Zudem erhöht die Kontextabhängigkeit – beispielsweise durch Auslassungen, Kernreferenzen und mehrschrittige Interaktionen – die Komplexität menschlicher Gesprächsdynamiken weiter. Um den aktuellen Entwicklungsstand von SDMs aufzuklären und diese Herausforderungen zu adressieren, stellen wir in diesem Beitrag einen Benchmark-Datensatz vor, der aus 1.079 Instanzen im Englischen und Chinesischen besteht. Unterstützt durch eine auf LLMs basierende Bewertungsmethode, die eng an menschliche Urteile angelehnt ist, ermöglicht dieser Datensatz eine umfassende Analyse der Leistungsfähigkeit von SDMs bei der Bewältigung dieser praktischen Herausforderungen.