ChipQA: No-Reference Video Quality Prediction via Space-Time Chips

Wir schlagen ein neues Modell für die bewertungsfreie Videoqualität (No-Reference Video Quality Assessment, VQA) vor. Unser Ansatz nutzt eine neue Idee von hochlokalisierten räumlich-zeitlichen (space-time, ST) Schnitten, die als Space-Time Chips (ST-Chips) bezeichnet werden. ST-Chips sind lokalisierte Ausschnitte von Videodaten entlang Richtungen, die Bewegung implizit erfassen. Zunächst verarbeiten wir die Videodaten mithilfe von wahrnehmungsgetriebener Bandpass-Filterung und Normalisierung, um anschließend orientierte ST-Chips basierend auf deren Passgenauigkeit zu parametrischen Modellen natürlicher Videostatistiken auszuwählen. Wir zeigen, dass die Parameter, welche diese Statistiken beschreiben, zuverlässig zur Vorhersage der Videoqualität verwendet werden können, ohne dass ein Referenzvideo erforderlich ist. Der vorgeschlagene Ansatz modelliert implizit die räumlich-zeitliche Natürlichkeit von Videos sowie Abweichungen von dieser Natürlichkeit. Wir trainieren und testen unser Modell an mehreren großen VQA-Datenbanken und demonstrieren, dass unser Ansatz eine state-of-the-art-Leistung bei reduzierten Kosten erzielt, ohne dass Bewegungsberechnungen notwendig sind.