PACS: Ein Datensatz für die physikalische audiovisuelle Alltagsverstandeslogik

Um KI sicher in realen Szenarien wie Krankenhäusern, Schulen und Arbeitsplätzen einzusetzen, muss sie in der Lage sein, robust über die physische Welt zu argumentieren. Grundlegend für dieses Argumentieren ist physischer Alltagsverstand: das Verständnis der physischen Eigenschaften und Möglichkeiten von verfügbaren Objekten, wie sie manipuliert werden können und wie sie mit anderen Objekten interagieren. Physisches Alltagsverständnis ist grundsätzlich eine mehrsensorische Aufgabe, da physische Eigenschaften durch mehrere Modalitäten manifestiert werden – darunter sind zwei Sehen und Akustik. Unser Papier macht einen Schritt Richtung realem physischem Alltagsverstand, indem es PACS beiträgt: den ersten audiovisuellen Benchmark, der für physische Alltagsverstandseigenschaften annotiert wurde. PACS enthält 13.400 Frage-Antwort-Paare, die 1.377 einzigartige Fragen zum physischen Alltagsverstand und 1.526 Videos umfassen. Unsere Datensammlung bietet neue Möglichkeiten zur Förderung des Forschungsbereichs physisches Argumentieren, indem sie Audio als Kernkomponente dieses multimodalen Problems einführt. Mit PACS bewerten wir mehrere state-of-the-art-Modelle an unserer neuen anspruchsvollen Aufgabe. Obwohl einige Modelle vielversprechende Ergebnisse erzielen (70 % Genauigkeit), fallen sie alle hinter der menschlichen Leistung zurück (95 % Genauigkeit). Wir schließen den Artikel mit der Demonstration der Bedeutung multimodalen Argumentierens und dem Vorschlag möglicher Ansätze für zukünftige Forschungen.