HyperAIHyperAI
vor 11 Tagen

Ein auf Deep Learning basierendes modellfreies Qualitätsbewertungsverfahren für UGC-Videos

Wei Sun, Xiongkuo Min, Wei Lu, Guangtao Zhai
Ein auf Deep Learning basierendes modellfreies Qualitätsbewertungsverfahren für UGC-Videos
Abstract

Die Bewertung der Qualität von Nutzererzeugtem Inhalt (User Generated Content, UGC) spielt eine entscheidende Rolle für die Sicherstellung einer hochwertigen Wiedergabeerfahrung für Endnutzer. Bisherige Studien zur Qualitätsbewertung von UGC-Videos (UGC VQA) nutzen entweder Bilderkennungsmodelle oder Bildqualitätsbewertungsmodelle (Image Quality Assessment, IQA), um frame-basierte Merkmale aus UGC-Videos abzuleiten, um anschließend mittels Regressionsmodelle die Qualitätsbewertung durchzuführen. Diese Ansätze gelten jedoch als suboptimal, da sie aufgrund von Domänenverschiebungen zwischen den zugrundeliegenden Aufgaben und der UGC VQA-Aufgabe begrenzte Leistung erzielen. In diesem Artikel stellen wir ein äußerst einfaches, jedoch wirksames UGC VQA-Modell vor, das dieses Problem dadurch angeht, dass ein end-to-end-optimiertes räumliches Merkmalsextraktionsnetzwerk direkt aus den Rohpixeln der Videoframes eine qualitätsbewusste räumliche Merkmalsrepräsentation lernt. Zudem extrahieren wir Bewegungsmerkmale, um zeitliche Verzerrungen zu erfassen, die durch räumliche Merkmale nicht erfasst werden können. Das vorgeschlagene Modell nutzt sehr spärlich ausgewählte Frames zur Extraktion räumlicher Merkmale und dichte Frames (d. h. den Videoblock) mit einer sehr geringen räumlichen Auflösung zur Bewegungsmerkmalsextraktion, wodurch eine geringe Rechenkomplexität erreicht wird. Dank der verbesserten qualitätsbewussten Merkmale verwenden wir lediglich eine einfache Multilayer-Perceptron-Schicht (MLP) zur Regressionsanalyse auf Blockebene und wenden anschließend eine zeitliche Durchschnitts-Pooling-Strategie an, um die Video-Ebene-Qualitätsbewertung zu ermitteln. Zudem führen wir eine mehrskalige Qualitätsfusion ein, um die Herausforderung der VQA bei unterschiedlichen räumlichen Auflösungen zu bewältigen, wobei die mehrskaligen Gewichte aus der Kontrastempfindlichkeitsfunktion des menschlichen visuellen Systems abgeleitet werden. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Modell die bestmögliche Leistung auf fünf gängigen UGC VQA-Datenbanken erzielt, was die Wirksamkeit des Ansatzes belegt. Der Quellcode wird öffentlich zugänglich gemacht.

Ein auf Deep Learning basierendes modellfreies Qualitätsbewertungsverfahren für UGC-Videos | Neueste Forschungsarbeiten | HyperAI