Command Palette

Search for a command to run...

5일 전

자누스코드: 코드 지능을 위한 기초적인 시각-프로그래밍 인터페이스로의 도전

Qiushi Sun Jingyang Gong Yang Liu Qiaosheng Chen Lei Li Kai Chen Qipeng Guo Ben Kao Fei Yuan

자누스코드: 코드 지능을 위한 기초적인 시각-프로그래밍 인터페이스로의 도전

초록

신경코드 지능의 범위는 텍스트 기반 소스코드를 넘어서 프로그램이 생성하는 풍부한 시각적 출력물로 빠르게 확장되고 있다. 이 시각적 차원은 유연한 콘텐츠 생성 및 정교한 시각화 편집과 같은 고급 응용 분야에서 핵심적인 역할을 한다. 그러나 시각 정보를 포함한 다중모달 소스코드 데이터의 품질이 낮고 양이 부족한 문제로 인해 이 분야의 발전이 제한되어 왔다. 이러한 문제는 데이터 합성과 품질 평가의 난이도에서 기인하는 핵심적 병목 현상이다. 이에 대응하기 위해 우리는 데이터 측면과 모델링 측면에서 모두 기여를 한다. 먼저, 데이터 모달 간의 상호작용적 시너지를 활용하여 표준 차트부터 복잡한 상호작용형 웹 UI, 코드 기반 애니메이션에 이르기까지 다양한 형태의 대규모 고품질 코퍼스를 효율적으로 생성할 수 있는 종합적인 합성 툴킷을 제안한다. 이 툴킷을 기반으로, 지금까지 최대 규모의 다중모달 코드 코퍼스인 JanusCode-800K를 구축하였다. 이 코퍼스는 텍스트 지시, 시각 입력 또는 둘의 조합을 기반으로 코드를 생성하는 시각-프로그래밍 인터페이스를 제공하는 모델인 JanusCoder와 JanusCoderV의 훈련을 가능하게 한다. 본 연구에서 제안하는 통합형 모델은 기존의 고립된 작업에 특화된 별도의 모델을 개발하는 접근 방식과는 달리, 일관된 아키텍처를 기반으로 다양한 작업을 처리할 수 있다. 텍스트 중심 및 시각 중심의 코딩 작업에 대한 광범위한 실험을 통해 JanusCoder 시리즈가 뛰어난 성능을 입증하였으며, 7B~14B 규모의 모델이 상용 모델의 성능에 도달하거나 이를 초과하는 결과를 보였다. 또한, 프로그래밍 논리와 시각적 표현 간의 조화를 이루는 데 있어 중요한 통찰을 제공하는 심층적 분석을 수행하였다. 본 연구의 코드와 체크포인트는 https://github.com/InternLM/JanusCoder에서 공개된다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
자누스코드: 코드 지능을 위한 기초적인 시각-프로그래밍 인터페이스로의 도전 | 연구 논문 | HyperAI초신경