매직타임, 시간 압축 영상으로 물리현상 이해한 AI 개발
텍스트-투-비디오 AI 모델이 새로운 변형 비디오 기능으로 급속히 발전하고 있습니다. OpenAI의 Sora와 같은 기존 모델들은 나무가 자라는 과정이나 꽃이 피는 장면과 같은 변형 비디오 생성에 어려움을 겪어왔습니다. 이는 실제 물리적 세계의 지식이 필요하며, 다양한 상황에서 크게 다를 수 있기 때문입니다. 하지만 이제 이러한 모델들이 진화의 한 걸음을 내딛고 있습니다. 로체스터 대학, 베이징 대학, 캘리포니아 대학 산타크루즈, 싱가포르 국립대학교의 컴퓨터 과학자들이 시간 경과 영상에서 실제 물리적 지식을 학습하는 새로운 AI 텍스트-투-비디오 모델인 MagicTime을 개발했습니다. 연구팀은 이 모델에 대해 IEEE Transactions on Pattern Analysis and Machine Intelligence에 논문으로 발표했습니다. "MagicTime은 우리 주변 세상의 물리적, 화학적, 생물학적, 또는 사회적 특성을 더 잘 시뮬레이션할 수 있는 AI로의 한 걸음입니다."라고 로체스터 대학 컴퓨터 과학부의 교수 제보 루오 밑에서 연구 중인 박사과정 학생인 진파 황이 말했습니다. 기존 모델들은 제한된 움직임과 부족한 다양성을 보여주었지만, 연구팀은 2,000개 이상의 시간 경과 영상 데이터셋을 만들어 AI 모델들이 변형 과정을 더 효과적으로 모방하도록 훈련시켰습니다. 현재 오픈소스 U-Net 버전의 MagicTime은 2초짜리 512x512 픽셀 클립(8프레임/초)을 생성하며, 동반되는 확산-트랜스포머 구조는 이를 10초짜리 클립으로 확장합니다. 이 모델은 생물학적 변형뿐만 아니라 건물 건설이나 빵 굽는 과정 등도 시뮬레이션할 수 있습니다. 제네레이티브 비디오가 시각적으로 흥미롭고 데모도 재미있지만, 연구팀은 이 기술이 과학자들에게 중요한 도구가 될 수 있는 중요한 단계로 보고 있습니다. "예를 들어, 미래에는 생물학자가 제네레이티브 비디오를 사용해 아이디어를 예비 탐색하는 과정을 가속화할 수 있을 것입니다."라고 황이 말했습니다. "물리적 실험이 최종 검증을 위해 필수적이기는 하지만, 정확한 시뮬레이션이 반복 사이클을 줄이고 필요한 실시간 실험 횟수를 감소시킬 수 있습니다." MagicTime은 실제 세계의 복잡한 변화 과정을 시뮬레이션하는 데 필요한 물리적 지식을 효과적으로 학습할 수 있는 첫 번째 시도로, 향후 더 정교한 모델 개발에 큰 도움이 될 것으로 기대됩니다. 이 모델은 물리학, 화학, 생물학, 사회학 등 다양한 분야에서 활용될 수 있으며, 과학 연구의 효율성을 크게 높일 가능성이 있습니다. 특히 생명과학 분야에서는 이 모델이 실험 초기 단계를 가속화시키는 데 중요한 역할을 할 것으로 보입니다. 연구팀은 MagicTime이 AI의 발전 방향을 제시하고, 실제 세계의 다양한 현상을 더욱 정확하게 시뮬레이션할 수 있는 기반이 되기를 바라고 있습니다. 이 모델의 성공적인 개발은 과학자들이 실험을 설계하고, 아이디어를 검증하는 과정에서 시간과 리소스를 절약할 수 있는 중요한 도구가 될 것으로 평가됩니다. 또한, MagicTime은 오픈소스로 제공되어, 다양한 연구자들이 이 기술을 활용할 수 있도록 지원할 것입니다. 로체스터 대학, 베이징 대학, 캘리포니아 대학 산타크루즈, 싱가포르 국립대학교는 이 프로젝트를 공동으로 진행했으며, 이들 대학은 컴퓨터 과학 분야에서 우수한 연구 성과를 인정받고 있습니다. MagicTime의 개발은 AI가 실제 세계를 이해하고, 그 안에서 일어나는 활동과 사건을 시뮬레이션하는 데 있어 중요한 진전을 가져올 것으로 전망됩니다.