HyperAI초신경
Back to Headlines

애플, 고해상도 이미지 생성을 위한 새로운 AI 모델 발표

하루 전

애플 리서치는 잊혀진 AI 기술로 이미지를 생성 - 9to5Mac 오늘날 대부분의 이미지 생성 모델은 두 가지 주요 카테고리에 속합니다: Stable Diffusion과 같은 확산 모델 또는 OpenAI의 GPT-4o와 같은 자기 회귀 모델입니다. 하지만 애플은 최근 발표한 두 편의 논문에서, 정규화 흐름(Normalizing Flows, NFs)이라는 잊혀진 기술이 여전히 잠재력을 갖추고 있다는 것을 보여주었습니다. 이 기술에 트랜스포머를 추가하면, 이전보다 더 강력한 성능을 발휘할 수 있다는 것이 연구의 핵심입니다. 먼저, 정규화 흐름이란 무엇인가요? 정규화 흐름은 실제 데이터(예: 이미지)를 구조화된 노이즈로 수학적으로 변환하는 방법을 배우고, 그 과정을 역으로 진행하여 새로운 샘플을 생성하는 AI 모델입니다. 이 모델의 큰 장점은 생성된 각 이미지의 정확한 가능성(likelihood)을 계산할 수 있다는 점입니다. 이는 확산 모델이 할 수 없는 특성으로, 결과 가능성 이해가 중요한 작업에서 유용하게 사용됩니다. 하지만 이 기술이 최근 많이 알려지지 않은 이유는 초기 정규화 흐름 기반 모델들이 생성된 이미지가 뿌옇거나, 확산 모델이나 트랜스포머 기반 시스템이 제공하는 세부 사항과 다양성을 부족했기 때문입니다. 연구 #1: TarFlow 논문 "정규화 흐름은 효과적인 생성 모델 가능"에서 애플은 새로운 모델인 TarFlow(Transformer AutoRegressive Flow)를 소개했습니다. TarFlow의 핵심은 이전 정규화 흐름 모델에서 사용되었던 수작업으로 만든 층들을 트랜스포머 블록으로 대체하는 것입니다. 이 모델은 이미지를 작은 패치로 나누어 블록 단위로 생성하며, 각 블록은 이전에 생성된 모든 블록을 바탕으로 예측됩니다. 이는 오픈AI가 현재 이미지 생성에 사용하는 동일한 기본 메커니즘인 자기 회귀(self-regressive) 방식입니다. TarFlow가 중요한 차이점을 갖는 이유는 오픈AI가 이미지를 이산 토큰으로 처리하는 반면, TarFlow는 이미지를 먼저 토큰화하지 않고 픽셀 값을 직접 생성하기 때문입니다. 이는 이미지를 고정된 어휘 집합으로 압축함으로써 발생하는 품질 저하와 유연성 부족을 피할 수 있게 합니다. 그러나 큰 크기의 고해상도 이미지로 확장할 때 한계가 있었으며, 이는 두 번째 연구에서 개선되었습니다. 연구 #2: STARFlow 논문 "STARFlow: 고해상도 이미지 생성을 위한 확장 가능한 잠재 정규화 흐름"에서 애플은 TarFlow를 기반으로 한 STARFlow(Scalable Transformer AutoRegressive Flow)를 제시하며 주요 업그레이드를 소개했습니다. 가장 큰 변화는 STARFlow가 이제 픽셀 공간에서 직접 이미지를 생성하지 않는다는 것입니다. 대신 이미지를 압축한 버전에서 작업하고, 마지막 단계에서는 디코더가 모든 것을 원래 해상도로 업샘플링(up-sampling)합니다. 이를 '잠재 공간(latent space)'에서 작업하는 것이라고 부르며, STARFlow는 수백만 개의 픽셀을 직접 예측할 필요가 없습니다. 대신 이미지의 일반적인 구조에 초점을 맞추고, 디코더는 세부 텍스처를 완성하는 역할을 합니다. 또한 애플은 모델이 텍스트 프롬프트를 처리하는 방식도 개선했습니다. 별도의 텍스트 인코더를 만드는 대신, 사용자가 모델에 이미지를 생성하도록 요청할 때 기존 언어 모델(예: 구글의 소형 언어 모델 Gemma)을 플러그인(plug-in)할 수 있도록 설계되었습니다. 이는 이미지 생성 부분이 시각적 세부 사항을 다듬는 데 집중할 수 있게 합니다. STARFlow vs. OpenAI의 GPT-4o 이미지 생성기 애플이 정규화 흐름을 재검토하는 동안, 오픈AI도 최근 확산 모델을 벗어나 GPT-4o 모델을 개발했습니다. 그러나 두 회사의 접근 방식은 근본적으로 다릅니다. GPT-4o는 이미지를 문장 안의 단어처럼 이산 토큰으로 처리합니다. ChatGPT에게 이미지를 생성하도록 요청하면, 모델은 하나의 이미지 토큰을 한 번에 예측하며, 사진을 조각별로 만들게 됩니다. 이는 오픈AI에게 엄청난 유연성을 제공합니다. 같은 모델로 텍스트, 이미지, 오디오를 단일 통합 토큰 스트림 내에서 생성할 수 있습니다. 물론, 토큰 단위로 생성하는 것은 특히 큰 크기나 고해상도 이미지의 경우 느릴 수 있으며, 매우 많은 연산 자원을 필요로 합니다. 하지만 GPT-4o는 전적으로 클라우드에서 실행되므로, 오픈AI는 지연 시간이나 전력 사용량에 제약받지 않습니다. 결론적으로, 애플과 오픈AI 모두 확산 모델을 벗어나 발전하고 있지만, 오픈AI는 데이터 센터를 위해, 애플은 우리의 주머니를 위해 모델을 개발하고 있습니다. 산업 전문가들은 애플의 이 연구가 이미지 생성 분야에서 새로운 방향성을 제시할 수 있다고 평가하고 있습니다. 특히, 애플의 STARFlow는 고해상도 이미지를 효율적으로 생성할 수 있는 잠재력을 갖추고 있어, 향후 모바일 기기에 적용될 가능성이 높다고 보고 있습니다. 애플은 이러한 기술을 통해 사용자 경험을 더욱 향상시키고, AI 기술의 접근성을 확대할 수 있을 것으로 기대됩니다.

Related Links