COFAR: Alltagswissen und faktisches Schlussfolgern bei der Bildsuche

Ein Merkmal, das Menschen modernen künstlichen Intelligenzmodellen überlegen macht, ist die Fähigkeit, Bilder jenseits dessen zu interpretieren, was visuell offensichtlich ist. Betrachten wir die folgenden beiden natürlichsprachlichen Suchanfragen: (i) „eine Schlange von Kunden, die geduldig darauf warten, Eis zu kaufen“ und (ii) „eine Schlange von Touristen, die zu einem berühmten mughalischen Bauwerk in Indien gehen“. Die Interpretation dieser Anfragen erfordert die Anwendung von (i) Alltagswissen, beispielsweise die Identifikation von Menschen als Kunden oder Touristen sowie von Handlungen als „warten, um zu kaufen“ oder „gehen, um zu sehen“; sowie (ii) faktischem oder weltbezogenem Wissen bezüglich benannter visueller Entitäten, beispielsweise ob der im Bild dargestellte Laden Eis verkauft oder ob das im Bild sichtbare Denkmal ein mughalischer Bau in Indien ist. Solche Schlussfolgerungen gehen über reine visuelle Erkennung hinaus. Um sowohl alltägliches als auch faktisches Schließen bei der Bildersuche zu ermöglichen, präsentieren wir einen einheitlichen Rahmenwerk namens Knowledge Retrieval-Augmented Multimodal Transformer (KRAMT). Dieses Modell betrachtet benannte visuelle Entitäten in einem Bild als Zugangspunkt zu enzyklopädischem Wissen und nutzt diese zusammen mit der natürlichen Sprachanfrage, um relevante Wissensinhalte zu verankern. Darüber hinaus integriert KRAMT nahtlos visuelle Inhalte und verankertes Wissen, um die Ausrichtung zwischen Bildern und Suchanfragen zu lernen. Dieser einheitliche Rahmen wird anschließend zur Durchführung von Bildersuchen eingesetzt, die sowohl alltägliches als auch faktisches Schließen erfordern. Die Retrieval-Leistung von KRAMT wird anhand eines neuen Datensatzes, den wir vorstellen – COFAR – evaluiert und mit verwandten Ansätzen verglichen. Unsere Code- und Datensatzressourcen sind unter https://vl2g.github.io/projects/cofar verfügbar.