Textbasierte RL-Agenten mit Alltagswissen: Neue Herausforderungen, Umgebungen und Baselines

Textbasierte Spiele sind als wichtiger Testbereich für Forschungen im Bereich des Reinforcement Learnings (RL) hervorgetreten, da sie von RL-Agenten erfordern, sprachliche Verarbeitung auf der Grundlage von Realität mit sequentiellen Entscheidungsprozessen zu kombinieren. In dieser Arbeit untersuchen wir das Problem der Einflussnahme von Alltagswissen auf RL-Agenten. Solches Wissen würde es den Agenten ermöglichen, effizient in der Welt zu handeln, indem unwahrscheinliche Aktionen eliminiert werden, und vorausschauendes Planen durchzuführen, um festzustellen, wie aktuelle Aktionen zukünftige Weltzustände beeinflussen könnten. Wir entwerfen eine neue textbasierte Spielen-Umgebung namens TextWorld Commonsense (TWC), die zur Ausbildung und Bewertung von RL-Agenten mit einem bestimmten Typ von Alltagswissen über Objekte, ihre Eigenschaften und Handlungsmöglichkeiten dient. Zudem stellen wir mehrere Baseline-RL-Agenten vor, die den sequentiellen Kontext verfolgen und das relevante Alltagswissen dynamisch aus ConceptNet abrufen. Wir zeigen, dass Agenten, die Alltagswissen in TWC integrieren, besser abschneiden und effizienter handeln. Wir führen Nutzerstudien durch, um die menschliche Leistung bei TWC einzuschätzen und belegen dabei, dass es noch viel Raum für zukünftige Verbesserungen gibt.