Kontrastives Lernen generalisierter Spielrepräsentationen

Die Darstellung von Spielen durch ihre Pixel bietet einen vielversprechenden Ansatz zur Entwicklung allgemeiner und vielseitiger Spielmodelle. Obwohl Spiele nicht allein aus Bildern bestehen, erfassen neuronale Netzwerke, die auf Spiel-Pixeln trainiert wurden, häufig Unterschiede im visuellen Stil der Bilder, statt den inhaltlichen Aspekten des Spiels. Dadurch sind solche Modelle selbst innerhalb ähnlicher Spiele derselben Genre nicht gut generalisierbar. In diesem Paper bauen wir auf jüngste Fortschritte im Bereich des kontrastiven Lernens auf und zeigen dessen Vorteile für die Repräsentationslernung in Spielen. Das Lernen, Spielebilder voneinander zu unterscheiden, ermöglicht nicht nur eine effizientere Klassifizierung von Spielen, sondern führt auch zu Modellen, die Spiele in einer sinnvolleren Weise voneinander trennen, indem sie den visuellen Stil ignorieren und stattdessen den inhaltlichen Aspekten der Spiele Aufmerksamkeit schenken. Unsere Ergebnisse auf einer großen Datensammlung von Sport-Spielen mit 100.000 Bildern aus 175 Spielen und 10 Spielgenres deuten darauf hin, dass kontrastives Lernen besser geeignet ist, um generalisierte Spielrepräsentationen zu erlernen als herkömmliche überwachte Lernverfahren. Diese Erkenntnisse bringen uns einem universellen visuellen Encoder für Spiele näher, der auch auf bisher unbekannte Spiele angewendet werden kann, ohne dass ein erneutes Training oder Feinabstimmung erforderlich ist.