베이징 대학의 시복신(Shi Boxin) 팀과 베이지안 컴퓨팅은 13,000개의 비디오 클립을 기반으로 샘플이 없는 비디오 편집을 고려한 파노라마 비디오 생성 프레임워크인 PanoWan을 제안했습니다.

파노라마 영상은 가상현실(VR)의 중요한 콘텐츠 형태 중 하나입니다. 현실 세계를 기반으로 하며, 360도 몰입형 시점을 통해 사용자의 몰입감과 상호작용 경험을 향상시킵니다. 콘텐츠 제작, 산업 구현, 그리고 사용자 대중화 측면에서 VR 발전에 핵심적인 역할을 합니다.현재 파노라마 영상 제작은 주로 전문 장비에 의존하고 있어 콘텐츠 제작의 폭이 크게 제한됩니다.
최근 몇 년 동안 생성적 비디오 모델의 급속한 발전에 따라 연구자들은 이를 파노라마 비디오 분야에도 적용하기 시작했으며, 이를 통해 파노라마 콘텐츠 제작의 한계를 낮추고 VR 콘텐츠의 대규모 확장을 촉진했으며 심지어 몰입도가 높은 대화형 가상 세계를 구축하는 데에도 기여했습니다.
하지만 기존의 영상 생성 모델을 파노라마 필드로 효율적으로 전환하는 것은 쉽지 않습니다.가장 큰 과제는 파노라마 비디오와 일반 비디오가 공간적 특징 표현에 근본적인 차이가 있다는 것입니다.예를 들어, 등거리 직사각형 투영은 위도 방향으로 이미지 왜곡을 유발하고, 종방향 경계 접합은 시각적, 의미적 불연속성을 유발합니다. 따라서 현재의 텍스트-비디오 생성 기술이 우수한 결과를 달성하더라도, 파노라마 비디오 생성 과정에서 장면 내 요소의 공간적 배치의 일관성과 일관성을 보장하기는 어렵습니다.
이 핵심 과제를 해결하려면베이징대학교 카메라 인텔리전스 연구소(시복신 팀)와 OpenBayes 베이지안 컴퓨팅은 공동으로 텍스트 기반 파노라마 비디오 생성 프레임워크인 PanoWan을 출시했습니다.이 방법은 매우 간단하고 효율적인 모듈 아키텍처를 사용하여 사전 학습된 텍스트-비디오 모델의 생성 사전 확률을 파노라마 필드로 원활하게 전달합니다. 이를 위해 위도 인식 샘플링 기술을 설계하여 등거리 직사각형 투영으로 인한 이미지 왜곡을 효과적으로 줄입니다. 동시에, 회전 의미론적 노이즈 제거 및 픽셀 단위 경계 채우기 디코딩 전략을 통해 경도 경계에서의 시각적 의미론적 불일치 문제를 해결합니다.
또한, 모델을 효과적으로 학습시키기 위해서는연구팀은 고품질의 대규모 파노라마 비디오 데이터 세트인 PanoVid를 특별히 구축했습니다.이 데이터 세트에는 텍스트 설명이 포함된 13,000개 이상의 비디오 클립이 포함되어 있으며, 총 길이는 거의 1,000시간에 달하며 자연 풍경, 도시 거리 풍경, 인간 활동 등 다양한 장면을 담고 있습니다.
실험 결과는 다음을 완전히 보여줍니다.PanoWan은 텍스트에서 파노라마 비디오를 생성하는 작업에서 현재 가장 뛰어난 성능을 달성할 뿐만 아니라, 강력한 제로샷 비디오 편집 기능도 보여줍니다.추가적인 교육 없이도 파노라마 비디오 초고해상도 향상, 의미 편집, 비디오 콘텐츠 확장 등 다양한 실제 시나리오를 처리할 수 있습니다.

관련 연구 논문 "PanoWan: 위도/경도 인식 메커니즘을 통해 확산 비디오 생성 모델을 360°로 높이기"가 arXiv에 게재되었습니다.
더 많은 예를 보려면 프로젝트 홈페이지를 방문하세요.
https://panowan.variantconst.com/

대규모 파노라마 비디오 데이터 세트 PanoVid
쌍으로 구성된 데이터 세트의 부족은 파노라마 비디오 생성 모델의 성능 향상에 있어 항상 주요 장애물 중 하나였습니다. 데이터 부족 문제를 해결하기 위해,연구팀은 의미적으로 균형 잡히고, 장면이 다양하며, 고품질의 대규모 파노라마 비디오 데이터 세트인 PanoVid를 구축했습니다.이 데이터 세트는 360-1M, 360+x, Imagine360, WEB360, Panonut360, Miraikan 360도 비디오 데이터 세트, 공개 몰입형 VR 비디오 데이터 세트 등 기존의 여러 파노라마 비디오 리소스를 하나로 모았습니다.
초기 수집 후, 연구팀은 Qwen-2.5-VL 모델을 사용하여 영상에 대한 고품질 텍스트 설명을 자동 생성하고, 영상에 카테고리 태그를 지정하여 등방투영(ERP) 형식의 영상만 보존했습니다. 이후 콘텐츠 중복을 방지하기 위해 설명 유사성을 기반으로 중복 제거 전략을 채택하고, 광학 흐름의 부드러움과 미적 점수를 통해 영상을 더욱 엄격하게 선별하여 각 카테고리의 고품질 영상만 보존했습니다.
이러한 일련의 엄격한 처리 절차를 거쳐,PanoVid 데이터 세트에는 최종적으로 13,000개 이상의 비디오 클립이 포함되어 있습니다.총 길이는 약 944시간이며, 풍경, 거리 풍경, 인물 등 다양한 장면을 담고 있습니다.

PanoWan 기술 하이라이트: 위도와 경도에 초점을 맞춰
PanoWan은 Wan 2.1 모델과 동일한 비디오 교육 프레임워크를 사용합니다.목표는 원본 모델의 생성 사전 확률을 최대한 유지하면서 최소한의 변경으로 비디오 생성 모델을 파노라마 필드로 이전하는 것입니다. ERP 형식으로 인해 발생하는 파노라마 비디오 왜곡 문제를 해결하기 위해,연구팀은 주로 위도와 경도의 두 가지 수준에서 작업을 진행합니다.
안에,위도 방향에서 PanoWan은 극지방의 위도 왜곡 문제를 완화하기 위해 위도 인식 샘플링(LAS)을 사용합니다.이 방법은 노이즈 분포를 다시 매핑하여 구의 실제 주파수 특성에 더욱 가깝게 맞춰서 위도 방향으로 이미지가 늘어지거나 왜곡되는 것을 효과적으로 줄입니다.
경도 방향은 생성된 결과의 왼쪽과 오른쪽 경계에서 발생하는 시각적, 의미적 불연속성 문제를 해결합니다.PanoWan은 회전 의미론적 잡음 제거(RSD)와 패딩 픽셀별 디코딩(PPD)을 제안했습니다.전자는 잠재 공간에서 회전 연산을 통해 솔기 오류를 서로 다른 경도에 균등하게 분배하여 의미 전환의 불일치를 크게 줄입니다. 후자는 솔기 영역의 맥락을 확장하여 디코더가 디코딩 과정에서 경계 외부의 더 많은 정보를 고려할 수 있도록 하여 픽셀 수준의 경계 분할 문제를 효과적으로 방지합니다.

아래 그림은 본 연구에서 제안한 위도 및 경도 메커니즘의 효과를 직관적으로 보여주기 위해 절제 실험을 사용합니다. 이미지의 왼쪽 상단 모서리는 위도 인식 샘플링 방법을 사용한 후, 원래 눈에 띄는 왜곡이 발생하기 쉬웠던 천장과 조명 스트립 선이 원근감 있게 직선화되고 자연스럽게 표현된 것을 보여줍니다. 오른쪽 하단 모서리의 완전한 방법은 회전 의미론적 노이즈 제거와 픽셀 단위 경계 채우기 디코딩을 결합하여 이미지 경계 영역의 불연속성을 성공적으로 제거했으며, 전환이 부드럽고 자연스럽게 표현되었습니다.

PanoWan 효과 디스플레이
먼저 가장 기본적인 빈센트 파노라마 영상입니다. 더 이상 미루지 않고 그 효과를 살펴보겠습니다.
프롬프트: 활화산이 연기 기둥을 뿜어내는 파노라마 샷. 전경에는 안개 구름에 가려진 장엄한 산들이 숨 막힐 듯 아름다운 대비를 이룹니다. 카메라는 천천히 팬하며 광활하고 경외심을 불러일으키는 자연의 아름다움을 포착합니다.
프롬프트: 네온 불빛으로 물든 사이버펑크 대도시의 파노라마 뷰. 다층 고속도로에서 숨 막히는 추격전이 펼쳐진다. 매끈한 무광 블랙 하이퍼카가 도시 정글을 질주하며 거대한 마천루를 스쳐 지나간다. 빛나는 스크린은 반짝이는 네온 광고로 장면을 비춘다. 카메라는 극적인 낮은 각도에서 이 장면을 포착하며, 숨 막히는 속도를 따라간다.
프롬프트: 북적이는 스타벅스 안에서 젊은 여성이 창가에 앉아 그란데 라떼를 마시며 두꺼운 소설에 푹 빠져 있습니다. 햇살이 스며들어 그녀의 집중된 얼굴에 따스한 빛을 드리웁니다. 세련된 나무 인테리어, 갓 내린 커피 향, 그리고 손님들의 대화가 그녀를 감싸고 있습니다. 활기 넘치는 카페 분위기를 포착한 중거리 샷입니다.
PanoWan은 재교육 없이도 사용할 수 있습니다.제로샷 애플리케이션에는 긴 비디오 생성, 초고해상도, 의미 편집, 파노라마 비디오를 위한 비디오 확장 작업 등이 포함됩니다.
긴 영상 생성 프롬프트: 해변에서의 일몰.
비디오 초고해상도 프롬프트: 활기 넘치는 매력적인 장인 베이커리의 360도 파노라마 내부를 감상해 보세요. 제빵사들이 정성껏 수제 빵, 페이스트리, 디저트를 만들고 있습니다. 진열대에는 따뜻한 빵이 가득하고, 향긋한 향기가 공기를 가득 채워 따뜻함과 편안함, 그리고 미식의 즐거움을 선사합니다.
의미 편집 프롬프트: 기차의 색상을 빨간색으로 바꾸세요.
비디오 확장 프롬프트: 다채로운 열기구들이 우아하게 상승하며 무성한 푸른 들판 위로 떠 있는 파노라마 샷. 선명한 빛깔이 구름이 흩뿌려진 광활한 푸른 하늘과 대조를 이룹니다. 부드러운 산들바람에 고요한 춤을 추듯 움직이는 열기구들은 아래 푸른 풍경에 역동적인 그림자를 드리웁니다. 지면에서 와이드 샷으로 광활한 풍경을 담아냈습니다.
양적 및 질적 평가
연구팀은 PanoWan과 360DVD(CVPR'24) 및 DynamicScaler(CVPR'25)에 대한 정량적, 정성적 비교를 수행했으며, 이는 Vincent 파노라마 영상에도 적용 가능합니다.
생성된 시각적 품질과 파노라마 비디오 특성을 과학적으로 평가하기 위해, 연구팀은 일반적인 비디오 평가 지표와 파노라마 전용 지표를 모두 고려하는 평가 시스템을 도입했습니다. 일반 지표에는 전체 비디오 품질(FVD), 텍스트 비디오 매칭(VideoCLIP-XL), 이미지 품질이 포함되며, 파노라마 전용 지표는 경도 경계 연속성, 동작 패턴 정확도, 장면 풍부도를 측정하는 평가 기준을 사용합니다.정량적 실험 결과를 바탕으로 볼 때, PanoWan은 모든 핵심 지표에서 가장 높은 성과를 달성했습니다.

다음은 PanoWan과 기존 방식의 시각적 효과를 비교한 것입니다.
연구팀 소개
시복신(Shi Boxin)은 베이징대학교 카메라 지능 연구소(http://camera.pku.edu.cn) 소장이자, 베이징대학교 컴퓨터공학과 영상 및 시각 기술 연구소 부소장이며, 종신 부교수(연구원), 박사 과정 지도교수, 베이징 지원 학자, 그리고 베이징대학교-지팡 체화 지능 공동 연구소 소장을 맡고 있습니다. 그는 일본 도쿄대학교에서 박사 학위를 받았으며, MIT 미디어랩에서 박사후 연구원을 역임했습니다.
그의 연구 방향은 계산 사진과 컴퓨터 비전입니다. 그는 200편 이상의 논문을 발표했습니다(TPAMI 논문 30편과 컴퓨터 비전 분야 3대 학회 논문 100편 이상 포함). 그의 논문은 IEEE/CVF 컴퓨터 비전 및 패턴 인식 학회(CVPR) 2024에서 최우수 논문상, 준우승, 국제 계산 사진 학회(ICCP) 2015에서 최우수 논문상, 국제 컴퓨터 비전 학회(ICCV) 2015에서 최우수 논문상을 수상했습니다. 그는 일본 오카와 연구 지원금 상(2021년)과 중국 전자학회 젊은 과학자상(2024년)을 수상했습니다. 그는 과학기술부 주요 인공지능 프로젝트의 수석 과학자, 중국 국가자연과학기금의 핵심 프로젝트 책임자, 국가 청년 인재 프로그램의 후보입니다. 그는 최고 국제 학술지인 TPAMI와 IJCV의 편집위원이자, 최고 학회인 CVPR, ICCV, ECCV의 현장 의장을 맡고 있습니다. 그는 APSIPA 특별 강연자, CCF 특별 회원, 그리고 IEEE/CSIG 상임 회원입니다.

주요 협력사인 OpenBayes Bayesian Computing은 국내 인공지능 서비스 제공업체 중 선두주자로서 산업 연구 및 과학 연구 지원 분야에 깊이 관여해 왔습니다. 기존 소프트웨어 생태계와 머신러닝 모델을 차세대 이기종 칩에 접목하여 산업체와 대학 연구 기관에 더 빠르고 사용하기 쉬운 데이터 과학 컴퓨팅 제품을 제공합니다. OpenBayes의 제품은 수십 개의 대규모 산업 시나리오 또는 주요 과학 연구 기관에서 채택되었습니다.
공식 웹사이트를 방문하세요:https://openbayes.com/