Untersuchung der Videoqualitätsschätzung bei Nutzererstellten Inhalten aus ästhetischer und technischer Perspektive

Die rasant zunehmende Menge an von Nutzern erstellten Inhalten (User-Generated Content, UGC) erfordert die Entwicklung effektiver Algorithmen zur Bewertung der Videoqualität (Video Quality Assessment, VQA). Allerdings bleibt das Ziel des UGC-VQA-Problems weiterhin unklar und kann aus zwei Perspektiven betrachtet werden: der technischen Perspektive, die die Wahrnehmung von Verzerrungen misst, und der ästhetischen Perspektive, die mit Präferenzen und Empfehlungen von Inhalten verknüpft ist. Um zu verstehen, wie diese beiden Perspektiven die insgesamt subjektiven Meinungen in UGC-VQA beeinflussen, führen wir eine großskalige subjektive Studie durch, um menschliche Qualitätsurteile bezüglich der Gesamtqualität von Videos sowie Wahrnehmungen aus ästhetischer und technischer Sicht zu sammeln. Die resultierende, entkoppelte Videoqualitätsdatenbank (Disentangled Video Quality Database, DIVIDE-3k) bestätigt, dass menschliche Qualitätsurteile zu UGC-Videos universell und unvermeidlich sowohl von ästhetischen als auch von technischen Aspekten beeinflusst werden. Ausgehend davon schlagen wir den Disentangled Objective Video Quality Evaluator (DOVER) vor, der die Qualität von UGC-Videos auf Basis dieser beiden Perspektiven lernt. DOVER erreicht dabei state-of-the-art-Leistung in der UGC-VQA bei äußerst hoher Effizienz. Unter Verwendung der Perspektivenurteile aus DIVIDE-3k entwickeln wir zudem DOVER++, den ersten Ansatz, der zuverlässige, klare Qualitätsbewertungen aus einer einzelnen Perspektive – entweder ästhetisch oder technisch – liefert. Code unter: https://github.com/VQAssessment/DOVER.