HyperAIHyperAI

Command Palette

Search for a command to run...

행사 요약 | 베이징대학교, 칭화대학교, 질리즈, 문비트가 오픈소스, 비디오 생성, 시각적 이해, 벡터 데이터베이스, AI 네이티브 프로그래밍 언어에 대해 논의했습니다.

Featured Image

현재 AI 산업은 전례 없는 발전 주기를 맞이하고 있습니다. 빅 모델의 대규모 적용, AI 기반 소프트웨어 시스템의 재구조화, 그리고 멀티모달 기반 모델의 가속화된 진화는 학계와 산업계의 경계를 허물고 있습니다. 비디오 생성에서 시청각 동기화에 대한 점점 더 정교해지는 요구 사항, 온디바이스 시각 모델의 효율적인 추론 최적화, 차세대 AI 기반 프로그래밍 언어의 등장 등 모든 것이 명확한 추세를 이끌고 있습니다.산업계와 학계의 협력 및 오픈소스 생태계는 인공지능 시대의 가장 중요한 혁신 패러다임으로 자리매김하고 있습니다.

지난 수십 년간 과학 연구가 산업을 주도하고 산업이 과학 연구를 지원하는 순환 구조가 일반적이었습니다. 그러나 모델, 컴퓨팅 능력, 데이터가 기하급수적으로 증가하는 오늘날에는 단일 주체의 혁신만으로는 더 이상 요구를 충족할 수 없습니다.오픈 소스는 도구 공유에서 인프라 협력으로 발전하여 대학, 기업, 커뮤니티 및 개별 개발자를 연결하는 핵심 고리가 되었습니다.특히 컴퓨터 비전, 멀티모달, 벡터 데이터베이스, AI 프로그래밍 언어와 같은 첨단 분야에서 오픈 소스는 기술 확산 속도를 가속화했을 뿐만 아니라 연구 개발 조직 방식을 재편하여 더 많은 "공동 창조 혁신"을 창출했습니다.

이러한 맥락에서,HyperAI는 COSCon'25의 공동 주최 커뮤니티로서 12월 7일에 "산업-연구 오픈 소스 협업 포럼"을 개최했습니다.저희는 베이징대학교 연구원인 스바이신, 질리즈의 오픈소스 전도사 리청룽, 칭화대학교 연구원 천후이, 그리고 문비트 커뮤니티의 핵심 개발자 레이정위 님을 모시고 오픈소스 생태계에서 최첨단 연구의 구현 경로, 산업 현장에서의 오픈소스 프로젝트의 반복적인 발전 방식, 그리고 미래에 커뮤니티의 힘을 통해 AI 애플리케이션이 어떻게 그 영역을 확장해 나갈지에 대해 논의하는 자리를 마련하게 되어 영광입니다.

시바이신: 비디오 생성 및 시청각 동기화 기술의 새로운 패러다임을 구현하기 위한 완전히 새로운 데이터셋 구축

현재 비디오 생성 기술은 화질과 단기적인 시간적 일관성 측면에서 상당한 발전을 이루어 고화질의 짧은 클립을 생성하고 일정 수준의 시청각 동기화를 달성할 수 있게 되었습니다. 그러나 기존 방식은 여전히 위도 및 경도 왜곡, 불연속적인 시점 연결, 움직이는 대상의 일관성 부족, 장기적인 시간적 안정성 부족 등의 문제점을 안고 있습니다. 더욱이 오디오와 비디오 콘텐츠 간에는 높은 상관관계가 존재합니다. 음성, 음악, 주변 소리 등 다양한 유형의 정보를 현실적으로 포착할 수 있는 모델을 구축하기 위해서는 다중 트랙 신호를 이해할 수 있는 생성 프레임워크가 필요합니다.

시바이신 선생님

이러한 맥락에서,쉬바이신 교수 연구팀은 시청각 동기화를 위한 인터벌 플로우 기법을 제안했는데, 이 기법을 통해 모델이 학습 과정에서 "이전과 이후의 여러 프레임을 살펴볼 수" 있어 시간에 따른 주의 연결을 구축할 수 있습니다.내부 블록 모듈을 통합함으로써, 이 모델은 서로 다른 오디오 트랙에 자체 주의 메커니즘을 구현하여 음성 및 주변 소리와 같은 다양한 유형의 오디오 정보를 더욱 정확하게 처리할 수 있습니다. 음악 부분의 전반적인 특성을 고려하여, 연구팀은 전역 특징 주입을 통해 감정 표현을 구현함으로써 모델이 음악적 분위기에 맞는 시각적 이미지를 생성할 수 있도록 했습니다.

쉬바이신 교수는 이번 프로젝트에서 연구팀이 이룬 획기적인 성과들을 소개했습니다.

* 다기능 오디오 동기화 비디오 생성 프레임워크를 제안합니다.정밀한 시청각 매핑과 정확한 시간 정렬은 오디오 분리를 통해 구현됩니다.

* 5개의 중복되는 하위 집합으로 구성된 오디오 동기화 비디오 생성용 새 데이터셋이 구축되었습니다.이 데이터셋은 약 392,000개의 오디오 및 비디오 세그먼트로 구성되어 있으며, 총 길이는 약 1,200시간입니다. 이 데이터셋을 기반으로, 모델은 여러 차례의 학습 과정을 통해 얼굴 립싱크, 이벤트 타이밍 제어, 감정적 분위기 표현 등을 학습할 수 있습니다.

* 분리된 오디오 트랙 처리를 위한 멀티스트림 시간 제어 네트워크가 제안되었다.립싱크, 이벤트 타이밍, 감정적 분위기에 대한 정밀한 제어.

"다중 스트림 시간 제어를 통한 오디오 동기화 비디오 생성"이라는 제목의 관련 연구 결과가 NeurIPS 2025에 발표 논문으로 선정되었습니다.

게다가,쉬바이신 교수 연구팀은 실제 움직이는 물체를 포함하는 파노라마 비디오를 생성하는 기능을 구현했으며, 장편 비디오, 의미론적 편집, 초해상도 및 시점 보간과 같은 작업을 지원합니다.이 방법은 위도를 고려한 샘플링 기법을 사용하여 등거리 직사각형 투영으로 인한 이미지 왜곡을 효과적으로 줄입니다. 동시에 회전 의미 잡음 제거 및 픽셀 단위 경계 채우기 디코딩 전략을 통해 경도 경계에서의 시각적 의미 불일치 문제를 해결합니다.

"PanoWan: 위도/경도 인식 메커니즘을 통해 확산 비디오 생성 모델을 360°로 향상"이라는 제목의 관련 연구 결과도 NeurIPS 2025에 포함되었습니다.

리 청룽: 최초의 오픈 소스 벡터 데이터베이스인 Milvus를 기반으로 상업 서비스 구축

2019년 10월,Milvus가 공식적으로 오픈소스로 공개되었습니다. 세계 최초의 오픈소스 벡터 데이터베이스인 Milvus는 1만 개 이상의 기업 프로젝트에 도입되었으며 GitHub에서 4만 개 이상의 스타를 획득했습니다.구체적으로, Milvus는 Float, Sparse, Binary 등 다양한 벡터 데이터를 지원하는 풍부한 데이터 유형을 제공합니다. 또한 동적 삭제 및 제거, 즉각적인 추가 및 검색, 실시간 디스크 영구 저장을 지원합니다. 나아가 태그와 벡터를 이용한 필터링 및 키워드와 벡터를 이용한 검색 기능도 제공합니다.

리청룽 선생님

리 청룽 교수는 밀버스 아키텍처의 진화를 검토하면서 2021년 3월에 출시된 LTS 버전에서 다음과 같은 점을 언급했습니다.이 팀은 데이터 영속성, 데이터 분할, 다양한 이기종 하드웨어 지원과 관련하여 많은 엔지니어링 작업을 수행했습니다.하지만 이 버전에는 여전히 상당한 단점이 있습니다. 모든 데이터 쓰기, 인덱싱 등이 하나의 구성 요소에서 수행되어 단일 머신 아키텍처를 형성한다는 점입니다. 가장 큰 단점은 데이터 규모가 크거나 초당 쿼리 수(QPS)가 높을 경우 확장성이 매우 제한적이라는 것입니다. 따라서 대기업의 대용량 데이터 요구 사항이나 광둥-홍콩-마카오 축제와 같은 높은 쿼리 트래픽 시나리오에 대응하기 어렵습니다.

현재, 저희 팀은 최신 Milvus 2.6 버전의 아키텍처에 대해 여러 가지 최적화 작업을 진행했습니다. 예를 들어 증분 데이터 처리를 위한 StreamingNode 추가, DataNode와 IndexNode 통합, 자체 개발한 Woodpecker를 객체 계층 메시지 큐에 추가하는 등의 작업을 수행했습니다.

질리즈는 오픈소스 분야에서 성공을 거둔 후, 이를 어떻게 상용화할지 고민하기 시작했고, 결국 오픈소스 인프라를 상용화하는 방법은 본질적으로 단 하나뿐이라는 사실을 발견했습니다.이는 퍼블릭 클라우드에서 SaaS 서비스를 제공하는 것을 의미합니다.따라서, 회사는 오픈소스 Milvus 외에도 이를 기반으로 완전 관리형 Zilliz Cloud를 구축했습니다. 현재 많은 기업 고객들이 오픈소스 프로젝트 Milvus를 통해 회사를 처음 알게 되었고, 이를 계기로 제품의 우수성을 인정받아 후속 SaaS 서비스를 이용하게 되었습니다.

Chen Hui: 효율적이고 정확한 엣지 측 시각적 이해를 달성하기 위한 경량 백본 네트워크 구축

시각 이해 기술은 인공지능 분야에서 학술 연구 및 응용 가치가 높은 핵심 주제입니다. 현재 시각 이해 기술은 모바일 기기, 로봇, 자율 주행 등 다양한 단말 시나리오에 널리 적용되고 있습니다. 그러나 국내 생산 칩의 연산 능력 부족, 기존 모델 구조의 심각한 중복성 등의 한계와 복잡한 시나리오에서의 높은 활용성 요구로 인해 효율적인 시각 모델 개발 연구가 특히 시급합니다.

천후이 선생님

실제 단말 애플리케이션의 요구 사항을 충족하기 위해,첸후이 교수 연구팀은 기본 모델의 다용도성과 추론 효율성 모두에 초점을 맞춰 경량 백본 네트워크를 구축하고 효율적이고 범용적인 비주얼 베이직 모델을 개발하여 효율적이고 정확한 에지 비주얼 이해를 달성했습니다.주요 기술적 측면은 세 가지로 나눌 수 있습니다.

* 비대칭 딥러닝 구조 및 경량 동적 네트워크 구조 설계;

* 실시간 엔드투엔드 목표물 탐지 모델 YOLOv10;

* 개방형 영역의 일반적인 시각적 이해.

딥러닝 모델의 대칭적인 "학습-추론" 구조로 인해 발생하는 중복 문제를 해결하기 위해,연구팀은 "비대칭 딥러닝 아키텍처"라는 개념을 제안했습니다.훈련 단계에서는 보다 복잡한 구조를 사용하여 학습 효율을 높이는 반면, 추론 단계에서는 동일한 변환을 사용하여 계산 경로를 압축함으로써 경량화 및 신속한 배포를 가능하게 합니다. 이러한 프레임워크를 기반으로 연구팀은 RepViT(CVPR 2024) 및 LSNet(CVPR 2025)을 포함한 여러 영향력 있는 백본 네트워크를 출시했습니다.

목표물 탐지 측면에서,이 팀은 YOLO 시리즈 모델의 두 가지 주요 문제점, 즉 NMS 의존성을 유발하는 다중 프레임 융합과 모델 구조의 중복성을 극복하는 데 집중했습니다.이 문제를 해결하기 위해 연구팀은 일관된 이중 레이블 매칭 전략을 제안했습니다. 학습 과정에서는 일대일 및 일대다 검출 헤드를 동일한 빈도로 최적화하는 반면, 추론 과정에서는 일대일 검출 헤드만 사용하여 손실 없는 NMS(Non-Machine Response) 없는 검출 및 인식을 보장합니다. 

또한, 모델 구조의 중복성으로 인한 높은 계산 복잡성을 해결하기 위해 효율성 중심 및 정확도 중심의 모델 설계 방법이 개발되었습니다. 이러한 방법을 기반으로, 차세대 NMS(Non-Mechanical System)를 사용하지 않는 고효율 고정밀 표적 탐지 모델인 YOLOv10(NeurIPS 2024)이 구축되었으며, 성능과 추론 효율성 간의 최첨단 균형을 달성했습니다.

* 논문 보기:

https://hyper.ai/papers/2405.14458

다양한 시나리오에서의 모델 적용과 관련하여, 기존 객체 탐지 모델은 종종 미리 정의된 레이블 세트에 제약을 받아 실제 개방형 시나리오에 적응하기 어렵습니다. 이러한 문제를 해결하기 위해 연구팀은 개방형 시나리오에서의 시각적 이해를 위한 기반 모델인 YOLOE(ICCV 2025)를 발표했습니다. 이 대규모 언어 모델은 일반화 가능한 교차 모달 표현을 제공하고, 구조적 재매개변수화 기법을 활용하여 추론 복잡성을 줄이며, 개방형 탐지와 분할을 동시에 지원하는 통합 모델을 구현합니다. 텍스트와 시각 정보를 포함한 멀티모달 개방형 단서를 지원함으로써 기존 시각적 이해 모델의 한계를 뛰어넘습니다.

레이정위: 문비트, AI 기반 시대의 소프트웨어 생산성 재구축을 위한 오픈 소스 사례

MoonBit의 연구는 업계에서 점점 더 분명해지는 현실에서 비롯되었습니다. 대규모 모델이 전체 소프트웨어 개발 프로세스에 깊이 통합되고 있지만, 기존 엔지니어링 시스템은 이러한 변화에 완전히 적응하지 못하고 있습니다. 대규모 모델이 개발 프로세스에 깊이 통합됨에 따라 소프트웨어 엔지니어링은 새로운 패러다임 전환을 겪고 있으며, AI는 더 이상 단순한 도구가 아니라 코드 생성, 리팩토링 및 검증 프로세스의 핵심 참여자가 되고 있습니다.모델은 점차 전통적인 "사람이 작성한 코드 + 기계 지원"에서 "AI가 생성, 개발 및 검토"로 전환되고 있습니다. IDEA Research Institute의 MoonBit 팀은 이러한 트렌드의 선구자입니다.

레이정위 박사

MoonBit 커뮤니티의 핵심 개발자인 레이 정위 박사는 기존 프로그래밍 언어는 초기 설계 단계에서 AI와의 상호작용에 최적화되어 있지 않았으며, AI가 생성한 코드는 가독성이 떨어지고 디버깅이 어렵고 재사용이 어렵다는 문제점을 종종 안고 있다고 설명했습니다. MoonBit의 목표는 AI에 최적화된 프로그래밍 언어를 사용하여 지능형 시대에 맞는 소프트웨어 생산 시스템을 재구축하는 것입니다.목표는 AI가 생성한 코드를 사람이 더 쉽게 이해하고 엔지니어링 관행에 더 부합하도록 만들고, 개발, 리팩토링 및 디버깅의 전반적인 효율성을 향상시켜 미래 지향적인 AI 클라우드 네이티브 개발 플랫폼을 오픈 소스 방식으로 구축하는 것입니다.

레이 정위는 발표에서 문비트의 언어 설계, 컴파일러 툴체인, 그리고 생태계 개발이 모두 세 가지 핵심 목표를 강조한다고 언급했습니다.

* 이 프로그램은 최상의 컴파일 속도와 생성 대상 크기를 추구하며, 정적 분석 도구 기능을 갖추고 있습니다.

* 학습 곡선이 매끄럽고 복잡성이 낮습니다.

관습에 얽매이지 않는 풍부한 표현력을 구축하십시오.

이러한 방향에 따라,MoonBit 커뮤니티는 웹 개발, 수치 계산, 오픈 소스 미들웨어 SDK 등 다양한 분야에서 수천 개의 오픈 소스 패키지를 축적하여 활발한 커뮤니티 생태계를 구축했습니다.MoonBit은 업계 협력 측면에서 Python, JavaScript 및 WebAssembly와의 기술적 연계를 적극적으로 구축하고 있습니다. 자동화된 캡슐화, 언어 간 호출 및 통합 모듈 인터페이스 툴체인을 통해 개발자는 MoonBit 내에서 Python의 성숙한 생태계를 직접 재사용할 수 있을 뿐만 아니라 JavaScript 코드를 원활하게 호출하거나 WASM 구성 요소를 통합하여 언어 간 시나리오에서 반복 개발 및 호환성 비용을 크게 줄일 수 있습니다.