HyperAI초신경
Back to Headlines

NVIDIA RTX AI, 저정밀 양자화로 FLUX.1 Kontext 최적화

7일 전

Black Forest Labs가 최근 발매한 FLUX.1 Kontext 모델은 커뮤니티 이미지 생성 모델의 새로운 차원을 열었다. 특히, FLUX.1 Kontext [dev] 변형은 이미지-이미지 변환 작업에 최적화되어 있으며, 이전 방법들이 복잡한 프롬프트와 마스크, 깊이 및 에지 맵을 사용해야 했던 것과 달리, 사용자 친화적인 다단계 이미지 편집 기능을 제공한다. 이 모델은 사용자가 단순한 언어 프롬프트로 이미지를 세밀하게 수정할 수 있게 해주며, 원래 이미지의 의미적 무결성을 유지하면서도 창의적인 편집을 가능하게 한다. NVIDIA는 Black Forest Labs와 협력하여 FLUX.1 Kontext [dev] 모델을 NVIDIA RTX GPU에서 최적화했다. 이를 위해 NVIDIA TensorRT와 양자화 기술을 활용해 추론 속도를 높이고 VRAM 요구량을 줄였다. 이 최적화 작업은 NVIDIA의 TensorRT Model Optimizer를 사용하여 수행되었으며, 특히 4비트 부동소수점(FP4) 연산을 지원하는 GeForce RTX 50 시리즈 GPU에 초점을 맞췄다. 초기 실험 결과, 변환기 모듈이 전체 처리 시간의 약 96%를 차지하는 것으로 나타나 양자화의 주요 대상이 되었다. FLUX.1 Kontext [dev] 모델은 여러 핵심 모듈로 구성되며, 비전 변환기, 오토인코더, CLIP, T5 등이 포함된다. 이 모델은 입력 이미지를 토큰으로 변환하고, 이 토큰을 확산 과정에서 사용되는 출력 이미지 토큰과 연결하는 독특한 설계를 가지고 있다. 이 설계는 다른 FLUX.1-dev 변형보다 두 배 긴 컨텍스트 윈도우를 제공하며, 메모리와 계산 요구량을 증가시킨다. 그러나, 이를 통해 사용자들은 더 복잡한 편집 작업을 단계적으로 수행할 수 있다. 양자화 전략은 주로 8비트 부동소수점(FP8)과 4비트 부동소수점(FP4)에 초점을 맞췄다. 특히, 스케일드 닷-프로덕트 어텐션(SDPA) 연산의 양자화는 연구의 핵심이었다. SDPA는 변환기 모듈의 총 계산 비용의 약 75%를 차지하며, 그 중 GEMM 연산과 어텐션 연산이 주요 부분을 차지한다. 양자화는 메모리 사용량을 크게 줄여, FP4에서는 BF16에 비해 약 3배, FP8에서는 약 2배의 메모리 절감 효과를 보였다. 추론 성능 면에서도 BF16에서 FP8로 전환하면 큰 개선이 이루어졌다. FP8는 메모리 대역폭 요구량을 줄이고 계산 처리량을 높이기 때문에, 단일 확산 단계를 실행하는 데 필요한 시간이 크게 단축되었다. 그러나 FP4로의 전환은 FP8에 비해 성능 향상이 작았는데, 이는 주로 어텐션 연산의 숫자 안정성을 유지하기 위해 FP8을 사용했기 때문이며, 또한 두 배 긴 컨텍스트 윈도우가 계산 비용을 증가시키는 역할을 했기 때문이다. 이러한 최적화 덕분에 FLUX.1 Kontext [dev] 모델은 사용자들에게 더욱 반응이 빠른 경험을 제공한다. 특히, 다단계 편집 기능은 창작 과정을 상호작용적이고 직관적으로 만드는데, 이는 AI 아티스트들이 이를 쉽게 채택하도록 유도할 것으로 기대된다. Black Forest Labs는 이미 FLUX.1 모델로 글로벌 주목을 받았으며, 이번 FLUX.1 Kontext 모델은 사용자들이 자연스러운 언어로 이미지를 제어하고 편집할 수 있는 혁신적인 접근법을 제시한다. FLUX.1 Kontext는 텍스트와 이미지 프롬프트를 모두 받아들이므로, 사용자들은 시각적인 개념을 쉽게 참조하고 이를 자연스럽게 발전시킬 수 있다. 이 모델은 이미 ComfyUI와 Black Forest Labs 플레이그라운드에서 사용 가능하며, 8월에는 NVIDIA NIM 마이크로서비스 버전도 출시될 예정이다. NVIDIA의 TensorRT Model Optimizer는 변환기 모듈의 어텐션 연산을 양자화하는 데 중요한 도구로, 연구진들은 이 기초 위에 더 나아가 낮은 정밀도 데이터 타입을 더 효과적으로 활용하는 새로운 기술을 개발할 수 있을 것이다. 이러한 추론 시간 효율성 향상을 유지하면서도 수치 정확성을 보장하는 기술은 머신 러닝 커뮤니티에 큰 이익을 가져올 것으로 보인다. 또한, Google은 최근 Gemma 3n, 새로운 멀티모달 소형 언어 모델을 발표했다. 이 모델은 NVIDIA GeForce RTX GPU와 NVIDIA Jetson 플랫폼에서 쉽게 실행할 수 있으며, AI 엔тузи아스트들은 Ollama와 Llama.cpp에서 이를 사용할 수 있다. Gemma 3n은 RTX 가속을 통해 뛰어난 성능을 발휘하며, 개발자들은 Ollama를 통해 쉽게 배포할 수 있다. NVIDIA는 7월 16일까지 진행되는 Plug and Play: Project G-Assist Plug-In Hackathon을 통해 개발자들에게 AI를 탐색하고 맞춤형 G-Assist 플러그인을 구축할 기회를 제공하고 있다. 이 행사는 7월 9일 수요일 오전 10시부터 11시까지举办的G-Assist插件网络研讨会,让开发者了解Project G-Assist的功能和基础,并参与现场问答环节。 为了进一步普及RTX AI技术,NVIDIA还在Facebook、Instagram、TikTok和X上推出了RTX AI Garage博客系列,每周都会介绍社区驱动的AI创新和内容。此外,感兴趣的用户可以通过订阅RTX AI PC通讯来获取更多信息,并在LinkedIn和X上关注NVIDIA Workstation。 通过这些合作和技术优化,FLUX.1 Kontext [dev]模型不仅为创意社区提供了强大的工具,还为更广泛的用户群体带来了高效且直观的图像编辑体验。NVIDIA和Black Forest Labs的合作展示了如何将尖端AI技术直接应用于桌面级设备,从而极大地激发了创作者的想象力并简化了工作流程。同时,这些技术进步也为更广泛的机器学习社区提供了宝贵的经验和工具,有望在未来推动更多的创新和发展。

Related Links