HyperAIHyperAI
vor 2 Monaten

Einheitliches Modell zur Bestimmung von Aufmerksamkeitsfokus in Bildern und Videos

Richard Droste; Jianbo Jiao; J. Alison Noble
Einheitliches Modell zur Bestimmung von Aufmerksamkeitsfokus in Bildern und Videos
Abstract

Das Modellieren von visueller Wichtigkeit (Saliency) für Bilder und Videos wird in der aktuellen Literatur der Computer Vision als zwei unabhängige Aufgaben betrachtet. Während das Modellieren von Bildwichtigkeit ein gut untersuchtes Problem ist und die Fortschritte bei Benchmarks wie SALICON und MIT300 langsamer werden, haben Video-Wichtigkeitsmodelle auf dem jüngsten DHF1K-Benchmark rasche Verbesserungen gezeigt. In dieser Arbeit machen wir einen Schritt zurück und fragen: Können das Modellieren von Bild- und Videowichtigkeit durch ein vereintes Modell angegangen werden, wobei sich gegenseitig Vorteile ergeben? Wir identifizieren verschiedene Quellen des Domänenverschiebungsproblems zwischen Bild- und Videowichtigkeitsdaten sowie zwischen verschiedenen Videowichtigkeitsdatensätzen als eine wesentliche Herausforderung für eine effektive gemeinsame Modellierung. Um dies anzugehen, schlagen wir vier neue Domänenanpassungstechniken vor – domänenspezifische A-priori-Werte (Domain-Adaptive Priors), domänenspezifische Fusion (Domain-Adaptive Fusion), domänenspezifisches Glättung (Domain-Adaptive Smoothing) und Bypass-RNN – sowie eine verbesserte Formulierung gelernter Gaußscher A-priori-Werte. Wir integrieren diese Techniken in ein einfaches und leichtgewichtiges Netzwerk im Encoder-RNN-Decoder-Stil, UNISAL genannt, und trainieren es gemeinsam mit Bild- und Videowichtigkeitsdaten. Wir evaluieren unsere Methode an den Videowichtigkeitsdatensätzen DHF1K, Hollywood-2 und UCF-Sports sowie an den Bildwichtigkeitsdatensätzen SALICON und MIT300. Mit einem Satz von Parametern erreicht UNISAL den Stand der Technik auf allen Videowichtigkeitsdatensätzen und hält sich mit dem Stand der Technik für die Bildwichtigkeitsdatensätze, trotz einer schnelleren Laufzeit und eines 5- bis 20-fach kleineren Modellvolumens im Vergleich zu allen konkurrierenden tiefen Methoden. Wir führen retrospektive Analysen und Abstraktionsstudien durch, die die Bedeutung des Modells zur Behandlung der Domänenverschiebung bestätigen. Der Code ist unter https://github.com/rdroste/unisal verfügbar.