HyperAI초신경

알리바바 그룹 산하의 통의천문(Qwen)은 200억 파라미터를 가진 새로운 이미지 기반 모델인 Qwen-Image를 공개했다. 이 모델은 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 뛰어난 성능을 보이며, 특히 중국어 텍스트 생성에서 기존 최고 수준을 크게 상회한다. 다양한 평가 벤치마크에서 GenEval, DPG, GEdit, ImgEdit 등에서 최고 성능을 기록했으며, LongText-Bench, ChineseWord, TextCraft 등에서 중국어 텍스트의 정확성과 자연스러움을 뛰어난 수준으로 구현했다. 실제 사례로는 미야자키 애니메이션 스타일의 거리 풍경에서 ‘阿里云’, ‘云存储’, ‘千问’ 등 중국어 텍스트를 정밀하게 렌더링하고, 캐릭터의 표정과 조명 효과까지 완벽하게 재현했다. 영문 텍스트도 ‘New Arrivals This Week’, ‘The Light Between Worlds’ 등 책 제목과 포스터 텍스트를 정확히 생성하며, 복잡한 인포그래픽 레이아웃까지 구현할 수 있다. 작은 글자나 긴 문장, 이중 언어 혼용까지도 자연스럽게 처리 가능하다. 또한 영화 포스터, 기업용 PPT, 가로형 이미지 레이아웃 등 다양한 콘텐츠 제작에도 적합하며, 실사, 애니메이션, 추상화 등 다양한 예술 스타일을 자유롭게 재현한다. 이미지 편집 기능으로는 텍스트 수정, 객체 추가/제거, 스타일 변환, 자세 조정 등이 가능해 일반 사용자도 전문가 수준의 편집이 가능하다. Qwen-Image는 이미지 생성과 텍스트 처리를 통합한 차세대 기반 모델로서, 창작의 기술 장벽을 낮추고, 다양한 산업 분야의 혁신을 촉진할 것으로 기대된다. 공개된 모델은 Qwen Chat에서 ‘이미지 생성’ 기능을 통해 체험할 수 있으며, 커뮤니티의 피드백을 바탕으로 지속적으로 발전할 계획이다.

Qwen-Image 출시: 복잡한 텍스트 렌더링과 정밀 이미지 편집에서 새 기준 세움

Related Links