Command Palette

Search for a command to run...

한 달 전

OmniInsert: 참조 영상의 자유로운 마스크 없는 동영상 삽입을 위한 확산 트랜스포머 모델

OmniInsert: 참조 영상의 자유로운 마스크 없는 동영상 삽입을 위한 확산 트랜스포머 모델

초록

최근 확산 모델 기반 영상 삽입 기술의 발전은 인상적이다. 그러나 기존의 방법들은 복잡한 제어 신호에 의존하면서도 주체의 일관성 문제를 해결하지 못해 실용적 적용에 한계가 있다. 본 논문에서는 마스크 없는 영상 삽입(mask-free video insertion) 문제에 초점을 맞추며, 데이터 부족, 주체-장면 균형, 삽입 조화성이라는 세 가지 핵심 과제를 해결하고자 한다. 데이터 부족 문제를 해결하기 위해, 우리는 자동으로 다양한 크로스 페어 데이터를 생성하는 새로운 데이터 파이프라인인 InsertPipe를 제안한다. 이 데이터 파이프라인을 기반으로, 단일 및 다중 주체 참조 모두에서 활용 가능한 마스크 없는 영상 삽입을 위한 통합적 프레임워크인 OmniInsert를 개발하였다. 특히 주체-장면 균형을 유지하기 위해, 다중 소스 조건을 명확히 주입할 수 있는 간단하면서도 효과적인 조건 특화 특징 주입(Condition-Specific Feature Injection) 메커니즘을 도입하였으며, 주체와 소스 영상에서의 특징 주입을 균형 있게 조절할 수 있도록 하는 새로운 점진적 학습(Progressive Training) 전략을 제안하였다. 동시에 주체의 세부적인 외형을 향상시키기 위해 주체 중심 손실(Subject-Focused Loss)을 설계하였다. 삽입 조화성의 추가적 향상을 위해, 인간의 선호를 시뮬레이션하여 모델을 최적화하는 삽입 선호 최적화(Insertive Preference Optimization) 방법론을 제안하였으며, 참조 과정에서 원본 장면에 자연스럽게 주체를 통합할 수 있도록 맥락 인지형 재구성 모듈(Context-Aware Rephraser)을 도입하였다. 본 분야에 대한 기준 평가 데이터셋이 부족한 문제를 해결하기 위해, 철저히 선정된 주체와 다양한 장면을 포함하는 종합적인 벤치마크인 InsertBench를 제안한다. InsertBench에서의 평가 결과, OmniInsert는 최신의 비공개 상용 솔루션들을 능가하는 성능을 보였다. 코드는 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
OmniInsert: 참조 영상의 자유로운 마스크 없는 동영상 삽입을 위한 확산 트랜스포머 모델 | 연구 논문 | HyperAI초신경