HyperAI

Auf Der Grundlage Von 13.000 Videoclips Schlug Das Shi Boxin-Team Der Peking-Universität Mithilfe Der Bayesschen Informatik Ein Framework Zur Erstellung Von Panoramavideos Namens PanoWan Vor, Das Die Zero-Sample-Videobearbeitung Berücksichtigt.

特色图像

Panoramavideos sind eine der wichtigsten Inhaltsformen der virtuellen Realität (VR). Sie basieren auf der realen Welt und verstärken das Gefühl der Einbindung und des interaktiven Erlebnisses des Nutzers durch eine immersive 360°-Perspektive. Sie bieten wichtige Unterstützung für die Entwicklung von VR hinsichtlich Inhaltsproduktion, Branchenimplementierung und Nutzerpopularisierung.Bei der aktuellen Panoramavideoproduktion wird üblicherweise professionelle Ausrüstung verwendet, was die Bandbreite der Inhaltserstellung stark einschränkt.

In den letzten Jahren haben Forscher mit der rasanten Entwicklung generativer Videomodelle auch begonnen, diese auf den Bereich der Panoramavideos anzuwenden. Dadurch wurden die Hemmschwellen für die Erstellung von Panoramainhalten gesenkt, die großflächige Ausweitung von VR-Inhalten gefördert und sogar zum Aufbau einer hochgradig immersiven interaktiven virtuellen Welt beigetragen.

Es ist jedoch nicht einfach, herkömmliche Modelle zur Videogenerierung effizient auf das Panoramafeld zu übertragen.Die größte Herausforderung besteht darin, dass Panoramavideos und normale Videos grundlegende Unterschiede in der räumlichen Merkmalsdarstellung aufweisen.Beispielsweise führt eine äquidistante rechteckige Projektion zu einer Bildverzerrung in Breitengradrichtung, und eine Längsgrenzspleißung führt zu visueller und semantischer Diskontinuität. Daher ist es, auch wenn die aktuelle Technologie zur Text-zu-Video-Generierung hervorragende Ergebnisse erzielt, schwierig, die Konsistenz und Kohärenz der räumlichen Anordnung der Elemente in der Szene während des Panoramavideo-Generierungsprozesses sicherzustellen.

Um diese zentrale Herausforderung zu bewältigen,Das Camera Intelligence Laboratory der Peking-Universität (Team von Shi Boxin) und OpenBayes Bayesian Computing haben gemeinsam PanoWan auf den Markt gebracht, ein textgesteuertes Framework zur Erstellung von Panoramavideos.Diese Methode nutzt eine sehr einfache und effiziente Modularchitektur, um die generativen Prioren des vortrainierten Text-zu-Video-Modells reibungslos auf das Panoramafeld zu übertragen. Zu diesem Zweck entwickelt diese Methode eine breitengradbewusste Sampling-Technologie, um die durch die äquidistante rechteckige Projektion verursachte Bildverzerrung effektiv zu reduzieren. Gleichzeitig löst sie durch die Strategie der rotationssemantischen Rauschunterdrückung und der pixelweisen Randfüllung das Problem der visuellen semantischen Inkohärenz an der Längengradgrenze.

Um das Modell effektiv zu trainieren,Das Forschungsteam hat speziell einen hochwertigen, groß angelegten Panorama-Videodatensatz namens PanoVid erstellt.Der Datensatz enthält mehr als 13.000 Videoclips mit Textbeschreibungen mit einer Gesamtlänge von fast 1.000 Stunden und deckt eine Vielzahl von Szenen ab, beispielsweise Naturlandschaften, städtische Straßenszenen und menschliche Aktivitäten.

Die experimentellen Ergebnisse zeigen deutlich, dassPanoWan erzielt nicht nur die derzeit beste Leistung bei der Erstellung von Panoramavideos aus Text, sondern verfügt auch über leistungsstarke Zero-Shot-Videobearbeitungsfunktionen.Ohne zusätzliches Training kann es mehrere praktische Szenarien bewältigen, wie etwa die Verbesserung der Superauflösung von Panoramavideos, die semantische Bearbeitung und die Erweiterung von Videoinhalten.

Das zugehörige Forschungspapier „PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms“ wurde auf arXiv veröffentlicht.

Weitere Beispiele finden Sie auf der Projekthomepage:
https://panowan.variantconst.com/

Großflächiger Panorama-Videodatensatz PanoVid

Der Mangel an gepaarten Datensätzen war schon immer eines der Haupthindernisse für die Verbesserung der Leistung von Modellen zur Panoramavideogenerierung. Um das Problem der Datenknappheit zu lösen,Das Forschungsteam erstellte einen semantisch ausgewogenen, szenenreichen und hochwertigen großformatigen Panorama-Videodatensatz namens PanoVid.Dieser Datensatz vereint mehrere vorhandene Panorama-Videoressourcen, darunter 360-1M, 360+x, Imagine360, WEB360, Panonut360, Miraikan 360-Grad-Videodatensatz und öffentliche immersive VR-Videodatensätze.

Nach der ersten Sammlung verwendete das Forschungsteam das Qwen-2.5-VL-Modell, um automatisch hochwertige Textbeschreibungen für die Videos zu generieren und diese mit Kategorien zu versehen. Dabei wurden nur Videos im äquirektangulären Projektionsformat (ERP) beibehalten. Um Inhaltsduplizierungen zu vermeiden, setzte das Team anschließend eine Deduplizierungsstrategie auf Basis ähnlicher Beschreibungen ein und prüfte die Videos streng auf optische Flussglätte und Ästhetik. Dabei wurden nur qualitativ hochwertige Clips jeder Kategorie beibehalten.

Nach dieser Reihe strenger VerarbeitungsverfahrenDer PanoVid-Datensatz enthält letztendlich mehr als 13.000 Videoclips.Die Gesamtdauer beträgt ungefähr 944 Stunden und umfasst eine große Vielfalt an Szenen, darunter Landschaften, Straßenszenen und Menschen.

Dataset-Beispiel

Technische Highlights von PanoWan: Fokus auf Längen- und Breitengrad

PanoWan verwendet dasselbe Videotrainings-Framework wie das Wan 2.1-Modell.Ziel ist es, das Videogenerierungsmodell mit minimalen Änderungen auf das Panoramafeld zu migrieren und dabei die vorherigen Generierungsmodelle des ursprünglichen Modells weitestgehend beizubehalten. Um das durch das ERP-Format verursachte Problem der Panoramavideoverzerrung zu lösen,Das Forschungsteam arbeitet hauptsächlich auf zwei Ebenen: Breitengrad und Längengrad.

In,In Breitengradrichtung verwendet PanoWan Latitude-Aware Sampling (LAS), um das Problem der Breitengradverzerrung in Polarregionen zu lindern.Bei dieser Methode wird die Rauschverteilung neu abgebildet, um sie besser an die tatsächlichen Frequenzeigenschaften der Kugel anzupassen. Dadurch werden die Dehnung und Verzerrung des Bildes in Breitenrichtung wirksam reduziert.

Längengradrichtung, um das visuelle und semantische Diskontinuitätsproblem an den linken und rechten Grenzen der generierten Ergebnisse zu lösen.PanoWan schlug Rotated Semantic Denoising (RSD) und Padded Pixel-wise Decoding (PPD) vor.Ersteres verteilt den Nahtfehler durch Rotationsoperationen im latenten Raum gleichmäßig auf verschiedene Längengrade, wodurch die Inkonsistenz semantischer Übergänge erheblich reduziert wird; Letzteres erweitert den Kontext des Nahtbereichs, sodass der Decoder während des Decodierungsprozesses mehr Informationen außerhalb der Grenze berücksichtigen kann, wodurch das Problem der Grenzsegmentierung auf Pixelebene effektiv vermieden wird.

Die folgende Abbildung demonstriert anhand eines Ablationsexperiments anschaulich die Wirksamkeit des in dieser Arbeit vorgeschlagenen Mechanismus zur Bestimmung von Längen- und Breitengraden. Die obere linke Bildecke zeigt, dass die ursprünglich stark verzerrten Decken- und Lichtstreifenlinien nach der Anwendung der Breitengrad-Abtastmethode in der perspektivischen Ansicht gerade und natürlich wirken. Die vollständige Methode in der unteren rechten Ecke kombiniert rotationssemantische Rauschunterdrückung und pixelweise Dekodierung der Randfüllung, um die Diskontinuität des Bildrandbereichs erfolgreich zu beseitigen. Der Übergang ist fließend und natürlich.

PanoWan-Effektanzeige

Zuerst sehen wir uns das einfachste Vincent-Panoramavideo an. Schauen wir uns den Effekt gleich einmal an.

Stichwort: Panoramaaufnahme eines aktiven Vulkans, der rauchige Wolken vor einem feurigen Sonnenuntergangshimmel ausspuckt. Im Vordergrund majestätische, in Nebel gehüllte Berge bilden einen atemberaubenden Kontrast. Die Kamera schwenkt langsam und fängt die Weite und beeindruckende Schönheit der Natur ein.

Prompt: Panoramaaufnahme einer neonbeleuchteten Cyberpunk-Metropole. Auf einem mehrstöckigen Highway entspinnt sich eine rasante Verfolgungsjagd. Ein schnittiges, mattschwarzes Hypercar rast durch den Großstadtdschungel und rast an kolossalen Wolkenkratzern vorbei. Leuchtende Bildschirme erhellen die Szene mit pulsierenden Neonreklamen. Die Kamera fängt das Geschehen aus dramatischer Untersicht ein und verfolgt die atemberaubende Geschwindigkeit des Autos.

Stichwort: In einem geschäftigen Starbucks sitzt eine junge Frau am Fenster, nippt an einem großen Latte Macchiato und ist in einen dicken Roman vertieft. Sonnenlicht fällt durch und taucht ihr konzentriertes Gesicht in warmes Licht. Um sie herum: schickes Holzinterieur, der Duft von frisch gebrühtem Kaffee und das Geplauder der Gäste. Halbnahe Aufnahme, die die lebhafte Café-Atmosphäre einfängt.

Auch PanoWan ist ohne Umschulung nutzbar.Zu den Zero-Shot-Anwendungen gehören die Generierung langer Videos, Superauflösung, semantische Bearbeitung und Video-Outscaling-Aufgaben für Panoramavideos.

Aufforderung zur Generierung langer Videos: Sonnenuntergang an einem Strand.

Video-Super-Resolution-Eingabeaufforderung: 360-Grad-Panoramablick in eine charmante Handwerksbäckerei, in der geschäftiges Treiben herrscht. Bäcker bereiten sorgfältig handgemachtes Brot, Gebäck und Desserts zu. Die Regale sind mit warmen Backwaren gefüllt, aromatische Düfte erfüllen die Luft und vermitteln ein Gefühl von Wärme, Behaglichkeit und kulinarischem Genuss.

Eingabeaufforderung zur semantischen Bearbeitung: Ändern Sie die Farbe des Zuges in Rot.

Aufforderung zur Videoerweiterung: Panoramaaufnahme farbenfroher Heißluftballons, die anmutig über üppige grüne Felder schweben. Ihre leuchtenden Farben bilden einen Kontrast zum weiten, wolkenverhangenen blauen Himmel. Sanfte Brisen treiben sie zu einem ruhigen Tanz an und werfen dynamische Schatten auf die grüne Landschaft darunter. Weite Aufnahme vom Boden aus, die die weite Szenerie einfängt.

Quantitative und qualitative Bewertung

Das Forschungsteam führte quantitative und qualitative Vergleiche von PanoWan mit 360DVD (CVPR'24) und DynamicScaler (CVPR'25) durch, die auch auf Vincent-Panoramavideos anwendbar sind.

Um die generierte Bildqualität und die Panoramavideoeigenschaften wissenschaftlich zu bewerten, verwendete das Team ein Bewertungssystem, das sowohl allgemeine Videobewertungsindikatoren als auch panoramaspezifische Indikatoren berücksichtigt. Zu den allgemeinen Indikatoren zählen die Gesamtvideoqualität (FVD), Text-Video-Matching (VideoCLIP-XL) und die Bildqualität, während die panoramaspezifischen Indikatoren Bewertungskriterien zur Messung der Kontinuität der Längengradgrenzen, der Bewegungsmustergenauigkeit und des Szenenreichtums verwenden.Gemessen an den quantitativen Versuchsergebnissen erzielte PanoWan bei allen Schlüsselindikatoren die beste Leistung.

Nachfolgend sehen Sie den Vergleich der visuellen Effekte von PanoWan und bestehenden Methoden:

Über das Forschungsteam

Shi Boxin, Direktor des Camera Intelligence Laboratory der Peking-Universität (http://camera.pku.edu.cn), ist stellvertretender Direktor des Instituts für Video- und Bildtechnologie der Fakultät für Informatik der Peking-Universität, außerordentlicher Professor (Forscher), Doktorvater, Beijing Zhiyuan Scholar und Direktor des gemeinsamen Labors für Embodied Intelligence der Peking-Universität und Zhifang. Er promovierte an der Universität Tokio, Japan, und war Postdoktorand am MIT Media Lab.

Seine Forschungsrichtung ist Computerfotografie und Computersehen. Er hat über 200 Artikel veröffentlicht (darunter 30 TPAMI-Artikel und über 100 Artikel auf den drei wichtigsten Konferenzen zum Thema Computersehen). Sein Artikel wurde als bestes Papier ausgezeichnet, belegte den zweiten Platz auf der IEEE/CVF-Konferenz für Computersehen und Mustererkennung (CVPR) 2024, belegte den zweiten Platz auf der Internationalen Konferenz für Computerfotografie (ICCP) 2015 und war Kandidat für das beste Papier der Internationalen Konferenz für Computersehen (ICCV) 2015. Er wurde mit dem Japan Okawa Research Grant Award (2021) und dem Young Scientist Award des Chinese Institute of Electronics (2024) ausgezeichnet. Er ist leitender Wissenschaftler der wichtigsten Projekte zur künstlichen Intelligenz des Ministeriums für Wissenschaft und Technologie, verantwortlich für die Schlüsselprojekte der Nationalen Stiftung für Naturwissenschaften der Volksrepublik China und Kandidat des Nationalen Jugendtalentprogramms. Er ist Redaktionsmitglied der führenden internationalen Fachzeitschriften TPAMI und IJCV und Fachbereichsleiter der führenden Konferenzen CVPR, ICCV und ECCV. Er ist APSIPA Distinguished Speaker, CCF Distinguished Member und Senior Member von IEEE/CSIG.

Der Hauptpartner OpenBayes Bayesian Computing, ein führender inländischer Anbieter von Dienstleistungen im Bereich künstliche Intelligenz, engagiert sich intensiv in der industriellen Forschung und der wissenschaftlichen Forschungsförderung. Durch die Integration klassischer Software-Ökosysteme und maschineller Lernmodelle in heterogene Chips der neuen Generation bietet das Unternehmen Industrieunternehmen und universitären Forschungseinrichtungen schnellere und benutzerfreundlichere Produkte für die datenwissenschaftliche Informatik. Seine Produkte werden bereits von Dutzenden großer Industrieunternehmen und führenden wissenschaftlichen Forschungsinstituten eingesetzt.

Besuchen Sie die offizielle Website:https://openbayes.com/