HyperAI초신경
Back to Headlines

라디얼 어텐션, 비디오 확산 모델에서 비용 4.4배 절감하며 품질 유지

2일 전

확산 모델은 이미지 합성을 통해 뛰어난 성과를 거두었고, 이는 동영상 생성에도 성공적으로 적용되었습니다. 그러나 동영상의 시간 차원을 처리하는 것은 계산량을 크게 증가시키는 주요 문제입니다. 특히, 자기 주의(self-attention) 메커니즘이 시퀀스 길이에 따라 효율성이 빠르게 저하되기 때문에, 긴 동영상을 효율적으로 학습하거나 실행하는 것이 어려워졌습니다. 이를 해결하기 위한 다양한 시도가 있었지만, 대부분 정확성이나 일반화 능력에서 문제가 발생하거나, 큰 구조적 변경이 필요했습니다. MIT, NVIDIA, 프린스턴, UC 버클리, 스탠퍼드, 그리고 First Intelligence의 연구진들은 동영상 확산 모델에서 주의 점수가 공간적 및 시간적 거리가 증가할수록 감소하는 현상, 이른바 '시공간 에너지 감쇠(Spatiotemporal Energy Decay)'를 발견하였습니다. 이 현상에 착안하여, O(n log n) 복잡도를 가진 희소 주의 메커니즘인 '라디얼 주의(Radial Attention)'를 제안하였습니다. 라디얼 주의는 주로 근처의 토큰들에 주의를 기울이는 정적인 주의 마스크를 사용하며, 시간이 지남에 따라 주의 윈도우가 줄어듭니다. 이로 인해 사전 학습된 모델들은 최대 4배 긴 동영상을 생성할 수 있으며, 학습 비용을 4.4배 줄이고 추론 시간을 3.7배 단축하면서 동영상 품질을 유지할 수 있습니다. 라디얼 주의는 동영상 모델에서 주의 점수가 공간적 및 시간적 거리에 따라 감소하는 사실에 기반합니다. 이를 '시공간 에너지 감쇠'라고 부르며, 라디얼 주의는 이 원리를 활용하여 계산량을 효과적으로 줄입니다. 이 메커니즘은 공간과 시간에서 외부로 지수적으로 감소하는 희소 주의 마스크를 도입하여, 가장 관련성 있는 상호작용만 유지합니다. 이 결과, O(n log n) 복잡도를 가지게 되어, 밀집 주의(dense attention)보다 훨씬 빠르고 효율적입니다. 또한 LoRA 어댑터를 이용한 최소한의 미세 조정(fine-tuning)으로, 사전 학습된 모델들을 긴 동영상을 효율적으로 생성하도록 적응시킬 수 있습니다. 라디얼 주의는 Mochi 1, HunyuanVideo, Wan2.1 등 세 가지 선두 주자 텍스트-동영상 확산 모델에서 평가되었습니다. 기존의 희소 주의 베이스라인(SVG, PowerAttention)과 비교하여, 라디얼 주의는 더 나은 시각적 품질과 상당한 계산량 감소를 보여주었습니다. 특히, 4배 긴 동영상 생성에 있어 추론 속도를 최대 3.7배 빠르게 하고, 학습 비용을 4.4배 낮출 수 있었습니다. LoRA 기반 미세 조정은 일부 경우 전체 미세 조정(full fine-tuning)보다 우수한 성능을 보여주어, 높은 품질의 긴 동영상 생성에 매우 효과적임을 입증하였습니다. 결론적으로, 라디얼 주의는 긴 동영상 생성을 위한 효율적인 희소 주의 메커니즘입니다. 시공간 거리가 증가할수록 주의 점수가 감소하는 현상, 즉 '시공간 에너지 감쇠'를 모방하여, 계산량을 줄입니다. 정적인 주의 패턴과 시간이 지남에 따라 지수적으로 축소되는 주의 윈도우를 사용하여, 최대 1.9배 빠른 성능을 제공하고, 최대 4배 긴 동영상 생성을 지원합니다. LoRA 기반의 경량 미세 조정을 통해 학습 비용을 4.4배, 추론 시간을 3.7배 절감하면서도 동영상 품질을 유지할 수 있습니다. 여러 최신 확산 모델에서의 성능 개선으로, 라디얼 주의는 긴 동영상 생성을 위해 매우 유용한 솔루션으로 평가됩니다. 이 연구는 동영상 생성 모델의 효율성을 크게 높이는 데 기여할 것으로 보입니다. 라디얼 주의는 기존 모델들의 구조를 크게 변경하지 않고도 긴 동영상 생성을 가능하게 하므로, 실용적인 측면에서도 큰 장점이 있습니다. 연구팀은 이 기술이 미래의 동영상 생성 모델 개발에 중요한 역할을 할 것이라고 기대하고 있으며, 이미지 및 동영상 생성 분야에서의 활용 가능성도 탐구하고 있습니다. 참조용으로 논문과 GitHub 페이지를 확인해 보세요. 이 연구의 모든 공은 해당 프로젝트의 연구진들에게 돌아갑니다. 또한, Twitter, YouTube, Spotify에서 저희를 팔로우하고, 100,000명 이상의 ML Reddit 커뮤니티에 가입하거나, 뉴스레터 구독을 해보세요.

Related Links