SocialIQA: Alltagsvernunft in sozialen Interaktionen

Wir stellen Social IQa vor, den ersten umfangreichen Benchmark für die Analyse von Alltagsintelligenz in sozialen Situationen. Social IQa enthält 38.000 Multiple-Choice-Fragen, die dazu dienen, emotionale und soziale Intelligenz in einer Vielzahl von alltäglichen Situationen zu überprüfen (z.B., F: "Jordan wollte Tracy ein Geheimnis anvertrauen, daher beugte sich Jordan zu Tracy hinüber. Warum tat Jordan das?" A: "Um sicherzustellen, dass niemand anderes es hören konnte"). Durch Crowdsourcing sammeln wir Alltagsfragen zusammen mit richtigen und falschen Antworten über soziale Interaktionen, indem wir eine neue Methode verwenden, die stilistische Artefakte in falschen Antworten durch das Befragen der Mitarbeiter nach der richtigen Antwort auf eine andere, aber verwandte Frage minimiert. Empirische Ergebnisse zeigen, dass unser Benchmark für bestehende Fragebeantwortungsmodelle auf der Basis vortrainierter Sprachmodelle herausfordernd ist und dies im Vergleich zur menschlichen Leistung deutlich wird (>20%-Differenz). Besonders hervorzuheben ist, dass wir Social IQa als Ressource für das Transferlernen von Alltagswissen etablieren konnten und damit den aktuellen Stand der Technik bei mehreren Aufgaben zur Analyse von Alltagsintelligenz (Winograd-Schemata, COPA) erreicht haben.