스타일과 테마의 고품질 융합! USO 프레임워크는 분리와 보상 기반 학습을 통해 두 가지를 모두 달성합니다. 1,000개의 전통 한의학 고전! 화동과학기술대학교에서 AI가 전통 한의학을 더 잘 이해할 수 있도록 MedChatZH를 출시했습니다.

AI 이미지 생성 분야에서는 스타일과 주제 사이에 종종 갈등이 발생하는데, 이는 동시에 달성하기 어렵습니다.스타일 중심적이며, 유사한 스타일을 가진 예술적 표현의 생성을 우선시합니다.예를 들어, "피카소의 입체파 스타일 초상화"를 만들어 달라는 요청을 받으면 AI는 색상과 붓놀림이 한눈에 피카소의 스타일임을 알아볼 수 있도록 하는 것을 우선시하고, 초상화의 세부 사항은 크게 줄일 것입니다.테마 중심 접근 방식은 테마의 일관성을 추구하는 데 중점을 두고 있으며, 핵심 과제는 "지정된 콘텐츠를 정확하게 생성하는 것"입니다."빨간색 나비넥타이를 맨 고양이"라는 프롬프트가 주어지면 AI는 생성된 결과가 설명하신 피사체와 일치하는지 확인합니다. 장면 설정이 "사무실"이어야 하는 경우, 생성된 배경이 흐릿해질 수 있습니다.
이를 바탕으로,ByteDance의 UXO 팀은 콘텐츠와 스타일을 분리하고 재구성하기 위한 통합 프레임워크인 USO를 출시했습니다.대규모 트리플릿 데이터 세트를 구성하고, 스타일 기능을 동시에 정렬하고 콘텐츠와 스타일을 분리하기 위한 분산된 학습 방식을 채택하고, 모델 성능을 더욱 향상시키기 위한 스타일 보상 학습(SRL)을 도입함으로써, 이 프레임워크는 테마와 스타일을 자유롭게 조합하여 높은 주제 일관성, 강력한 스타일 충실도, 자연스럽고 가소적이지 않은 느낌이 있는 이상적인 이미지를 생성할 수 있습니다.
USO는 교차 작업 협업 분리를 통해 모델 성능을 개선하여 주제 일관성과 스타일 유사성 측면에서 오픈 소스 모델의 SOTA 수준에 도달합니다.이는 기존 이미지 생성 방식에서 스타일과 테마를 분리하던 것을 깨고 두 가지를 모두 갖춘 목표를 달성했습니다.
현재 HyperAI 공식 웹사이트에 "USO: 통합 스타일 및 주제 중심 이미지 생성 모델"이 출시되었습니다. 지금 바로 사용해 보세요!
온라인 사용:https://go.hyper.ai/VWz1i
9월 1일부터 9월 5일까지 hyper.ai 공식 웹사이트 업데이트에 대한 간략한 개요를 소개합니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 5개
* 이번 주 추천 논문 : 5
* 커뮤니티 기사 해석 : 6개 기사
* 인기 백과사전 항목: 5개
* 9월 마감일 상위 컨퍼런스: 5개
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. MV3DPT 다중 뷰 3D 포인트 추적 데이터 세트
MV3DPT는 다중 시점 임의 3D 점 추적 작업을 위해 특별히 제작된 벤치마크 데이터셋입니다. 이 데이터셋은 여러 카메라 관점에서 동적 장면의 임의 3D 점을 안정적으로 온라인 추적하는 연구의 기반을 제공합니다. 이 데이터셋은 합성 장면과 실제 장면을 모두 포함하고, 여러 시점에서 얻은 데이터를 융합하여 오클루전 상황에서도 강력한 예측을 가능하게 합니다. 3D 점 추적 모델의 학습 및 평가에 적합하며, 컴퓨터 비전 및 로봇 공학 분야에서 널리 활용되고 있습니다.
직접 사용: https://go.hyper.ai/xs6Kt

2. StepEval 오디오 준언어적 준언어적 이해 평가 데이터 세트
StepEval Audio Paralinguistic은 StepFun AI 팀이 공개한 오디오 준언어 이해 평가 데이터셋입니다. AI 모델이 음성에 포함된 준언어 정보(성별, 나이, 억양, 감정 등)를 이해하는 능력을 평가하는 것을 목표로 합니다.
직접 사용: https://go.hyper.ai/d65ah
3. Landslide4Sense 산사태 원격 감지 벤치마크 데이터 세트
Landslide4Sense는 산사태 감지를 위한 다중 소스 위성 원격 탐사 벤치마크 데이터셋입니다. 이 데이터셋은 2015년부터 2021년까지 여러 지역의 산사태 현장을 다룹니다. 약 10m/픽셀의 해상도를 가진 128×128 이미지 블록으로 통합되어 있습니다. 각 샘플은 14개의 밴드(Sentinel-2 다중 스펙트럼 B1–B12 + ALOS PALSAR 기반 경사도 및 DEM)를 포함합니다.
직접 사용: https://go.hyper.ai/nDDwN

4. AlphaEarth 코어 임베딩 데이터 세트
AlphaEarth는 Google DeepMind와 Google Earth Engine 팀이 공개한 글로벌 지리공간 임베딩 데이터셋입니다. 다중 소스 원격 탐사 및 지리 데이터를 통합되고 재사용 가능한 시공간 임베딩으로 압축하여, 주석이 부족한 상황에서도 더욱 효율적인 매핑 및 모니터링을 가능하게 하는 것을 목표로 합니다.
직접 사용:https://go.hyper.ai/EYcNz

5. AetherCode 최고 프로그래밍 경쟁 벤치마크 데이터 세트
AetherCode는 ByteDance와 MAP 팀이 공개한 프로그래밍 경진대회 평가 데이터셋입니다. IOI, ICPC, USACO 등 최고 경진대회의 난이도 높은 문제와 전문가들이 검증한 고품질 테스트 사례를 통해 대규모 모델의 알고리즘 추론 및 코딩 역량을 더욱 현실적으로 평가하는 것을 목표로 합니다.
직접 사용: https://go.hyper.ai/oBpK1
6. MedChatZH 중국어 의학 대화 명령 데이터 세트
MedChatZH는 동중국과학기술대학교에서 공개한 중국 의학 대화 데이터셋입니다. 이 데이터셋은 중의학 고전에 대한 지속적인 사전 학습과 의료 교육 데이터에 대한 미세 조정을 통해 중의학 상담 대화(특히 중의학 시나리오)의 이해 및 생성 능력을 향상시키는 것을 목표로 합니다.
직접 사용: https://go.hyper.ai/gNRfB
7. HBFMID 인간 골절 이미지 데이터 세트
HBFMID는 골절 감지 및 분류 작업을 지원하도록 설계된 의료 영상 데이터셋입니다. 이 데이터셋은 다중 모드 영상을 포함하고, 여러 신체 부위를 포함하며, 다양한 형식을 표시합니다. 완벽하게 향상되고 명확하게 세분화되어 골절 감지 및 분류 모델의 학습 및 평가에 적합합니다. 특히 의료 영상 분석 및 딥러닝 연구에 유용합니다.
직접 접속: https://go.hyper.ai/IPIOE

8. HH-RLHF 인간 선호도 데이터 세트
HH-RLHF는 Anthropic에서 공개한 인간 선호도 데이터 세트로, 주로 유익/무해한 인간 선호도 데이터(PM 데이터)와 레드팀 대화 데이터(비PM 데이터)의 두 부분으로 구성되어 있습니다.
직접 사용: https://go.hyper.ai/u98TI
9. UQ 미해결 문제 데이터 세트
UQ 데이터셋은 스탠퍼드 대학교가 워싱턴 대학교, 노스캐롤라이나 대학교 및 기타 기관들과 협력하여 발표한 평가 벤치마크입니다. 인간 사회의 현실적이고 어려운 "미답의 질문"을 활용하여 최첨단 대형 모델의 추론, 사실성 및 탐색 능력을 평가하는 것을 목표로 합니다.
직접 사용: https://go.hyper.ai/BW5qz
10. Llama Nemotron VLM v1 다중 모드 이미지 및 텍스트 데이터 세트
Llama Nemotron VLM v1은 NVIDIA에서 VLM 사후 학습용으로 출시한 고품질 이미지 및 텍스트 데이터셋입니다. NVIDIA에서 출시한 Llama-3.1-Nemotron-Nano-VL-8B-V1 문서 이해 모델(문서 질의응답, 그래프 질의응답, AI2D 및 기타 시나리오 지원)을 지원하는 데 사용됩니다.
직접 사용: https://go.hyper.ai/KVW6Z
선택된 공개 튜토리얼
1. Hunyuan-GameCraft-1.0: 대화형 게임 비디오 생성 프레임워크
Hunyuan-GameCraft-1.0은 텐센트 Hunyuan 팀과 화중과학기술대학교가 공동 개발한 매우 역동적인 인터랙티브 게임 비디오 생성 프레임워크입니다. 키보드와 마우스 입력을 공유 카메라 표현 공간으로 통합함으로써 정밀한 동작 제어를 가능하게 하고 복잡한 인터랙티브 입력을 지원합니다.
온라인 실행: https://go.hyper.ai/c48zV

2. Hunyuan-MT-7B: 번역 모델 데모
Hunyuan-MT-7B는 텐센트 Hunyuan 팀이 출시한 경량 번역 모델입니다. 70억 개의 매개변수만 가지고 있으며, 33개 언어와 5개 중국어/방언 간의 번역을 지원합니다. 온라인 속어, 고시, 사교 대화 등을 정확하게 이해하고 맥락에 따라 자유롭게 번역할 수 있습니다. 사전 학습부터 통합 강화까지 전체 학습 과정을 포괄하는 학습 패러다임을 제시합니다.
온라인 실행: https://go.hyper.ai/nv9gJ

3. USO: 통합된 스타일과 주제 중심 이미지 생성 모델
USO는 ByteDance의 UXO 팀이 출시한 콘텐츠와 스타일을 분리하고 재구성하는 통합 프레임워크입니다. 어떤 장면에서든 어떤 주제와 스타일도 자유롭게 결합하여 높은 주제 일관성, 뛰어난 스타일 충실도, 그리고 자연스럽고 가소적이지 않은 느낌을 가진 이미지를 생성합니다. 실험 결과, 주제 일관성과 스타일 유사성 모두에서 오픈 소스 모델 중 최고 수준에 도달한 것으로 나타났습니다.
온라인 실행: https://go.hyper.ai/VWz1i

4. MiniCPM-V 4.5: 가장 강력한 엔드투엔드 멀티모달 모델
MiniCPM-V 4.5는 칭화대학교 자연어 처리 연구실과 미안비 인텔리전스가 오픈소스로 개발한 매우 효율적인 대규모 온디바이스 모델입니다. 이미지, 비디오, 광학 문자 인식(OCR) 등 여러 분야에서 탁월한 성능을 발휘합니다. 특히 고주사율 비디오를 이해하는 데 있어 획기적인 발전을 이루어 콘텐츠를 정확하게 인식합니다. 이 모델은 성능과 반응성을 균형 있게 고려한 하이브리드 추론 모드를 지원합니다.
온라인 실행: https://go.hyper.ai/o3Ns5

5. BioEmu: 생성적 딥러닝 시스템
Microsoft Research의 AI for Science팀이 개발한 생성적 딥러닝 시스템인 BioEmu는 단백질의 동적 구조와 평형 형태를 효율적으로 시뮬레이션합니다. 이 시스템은 단일 GPU에서 시간당 수천 개의 단백질 구조 샘플을 생성할 수 있어 기존 분자 동역학(MD) 시뮬레이션보다 훨씬 뛰어난 성능을 발휘합니다.
온라인 실행: https://go.hyper.ai/YV75B
💡또한, 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~

이번 주 논문 추천
1. R-4B: 바이모드 어닐링 및 강화 학습을 통한 MLLM의 범용 자동 사고 능력에 대한 인센티브 제공
본 논문은 자동 추론 및 의사 결정이 가능한 다중 모드 대규모 언어 모델인 R-4B를 제안합니다. 이 모델은 문제의 복잡성에 따라 사고 과정의 활성화 여부를 적응적으로 결정할 수 있습니다. 핵심 개념은 이중 모드 어닐링 메커니즘을 사용하여 모델에 "사고" 및 "비사고" 기능을 모두 부여하는 것입니다. 또한 이중 모드 전략 최적화 기법을 사용하여 모델의 추론 과정 활성화 여부를 정확하게 판단하는 능력을 향상시킵니다.
논문 링크: https://go.hyper.ai/3Nq23
2. EmbodiedOneVision: 일반 로봇 제어를 위한 인터리브 비전-텍스트-액션 사전 학습
본 논문은 EO-1 모델과 EO-Data1.5M 데이터셋으로 구성된 EO-Robotics를 제안한다. EO-1은 비전-텍스트-액션을 혼합한 사전 학습을 통해 다중 모드 체화 추론 및 로봇 제어 작업에서 우수한 성능을 달성하는 통합 체화 기반 모델이다.
논문 링크: https://go.hyper.ai/cTtge
3. ASE: AI 생성 코드의 보안을 평가하기 위한 저장소 수준 벤치마크
본 논문은 보안 코드 생성을 평가하기 위한 저장소 수준 벤치마크인 ASE(AI 코드 생성 보안 평가)를 제안합니다. ASE는 알려진 취약점(CVE)이 포함된 실제 오픈소스 저장소에서 작업을 빌드하며, 빌드 시스템 및 파일 간 종속성을 포함한 저장소 수준의 컨텍스트를 완벽하게 보존합니다.
논문 링크: https://go.hyper.ai/irGB2
4. Droplet3D: 비디오의 상식적 사전 지식을 활용하여 3D 생성을 용이하게 합니다.
본 논문은 데이터셋 구축부터 모델 설계까지 전 과정을 아우르는 3D 자산 생성에 비디오 모달리티를 적용하는 방법을 탐구합니다. 다중 시점 계층적 주석을 포함하는 최초의 대규모 비디오 데이터셋 Droplet3D-4M을 제안하고, 이미지 입력과 고밀도 텍스트 입력을 지원하는 생성 모델인 Droplet3D 모델을 학습합니다.
논문 링크: https://go.hyper.ai/BWwsV
5. VerlTool: 도구 사용을 통한 전체론적 에이전트 강화 학습을 향해
본 논문은 ARLT를 다중 모드 관찰 레이블(텍스트/이미지/비디오)을 갖는 다중 라운드 궤적으로 공식화하는 통합 모듈형 프레임워크인 VerlTool을 제안하며, 이를 통해 기존 단일 라운드 RLVR의 패러다임 한계를 극복합니다. 연구진은 수학적 추론, 지식 질의응답, SQL 생성, 시각적 추론, 웹 검색, 소프트웨어 엔지니어링 등의 작업에 대해 모델을 학습하고 평가하여, 통합된 학습 인프라를 제공하면서 특수 시스템과 유사한 성능을 달성했습니다.
논문 링크: https://go.hyper.ai/NeCSC
더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ
커뮤니티 기사 해석
1. 글로벌 물 건강 진단: 홍콩과학기술대학의 한 팀은 해안 지역의 엽록소 a의 시공간적 분포를 정확하게 예측하기 위해 시공간적 보간 및 예측 모델을 제안했습니다.
해안 생태계 건강 진단 문제를 해결하기 위해 홍콩과학기술대학교 연구팀은 시공간 보간 및 예측(STIMP) 모델을 제안했습니다. 특별히 설계된 모듈을 통합하여 엽록소 a의 시공간적 분포를 정확하게 예측함으로써, 시공간적 제약 조건 하에서 해양 엽록소 a를 예측하는 새로운 방법을 제시했습니다.
전체 보고서 보기: https://go.hyper.ai/trOfg
2. GPT-3 디렉터에서 Anthropic CTO로 변신한 톰 브라운은 기업가적 경험, 확장 법률, 칩 공급망 의존성에 대해 이야기합니다.
Y Combinator와의 인터뷰에서 Anthropic의 CTO 톰 브라운은 스타트업에서 AI 연구로의 전환기를 이야기했습니다. 그는 "수요 적합성"과 "확장 법칙"의 영향에 대해 이야기하고, OpenAI를 떠나 Anthropic을 설립하게 된 이유를 설명했습니다. 또한 Claude 시리즈 모델을 개발하는 과정에서 직면한 어려움과 혁신에 대해 이야기하고, Anthropic의 멀티 칩 전략 및 보안 비전에 대한 고려 사항도 밝혔습니다.
전체 보고서 보기: https://go.hyper.ai/d3CFR
3. 대기물리학 연구소에서 개발한 CoTCN 모델은 전 세계 해수면 온도 예측의 정확도를 크게 향상시켰으며, 1일 SST 예측 오차는 단 0.2°C에 불과합니다.
2025 CCF 글로벌 고성능 컴퓨팅 컨퍼런스에서 중국과학원 대기물리연구소의 린펑페이 연구원이 이끄는 팀은 중요한 연구 성과를 발표했습니다. 연구팀은 변압기와 CNN을 결합한 CoTCN 딥러닝 모델을 성공적으로 개발했습니다. 이 모델은 단기 전 세계 해수면 온도 예측에 획기적인 진전을 이루어 해양 환경 예측에 중요한 기술 지원을 제공했습니다.
전체 보고서 보기: https://go.hyper.ai/Wb1yK
4. Meta AI 등은 반복적인 정보 교환을 가능하게 하고 여러 작업에서 최첨단 성능을 달성하는 새로운 단백질 동적 융합 특성화 프레임워크인 FusionProt를 제안했습니다.
테크니온-이스라엘 공과대학(Technion-Israel Institute of Technology)과 메타 AI(Meta AI) 연구팀은 FusionProt이라는 새로운 단백질 표현 학습 프레임워크를 제안했습니다. 이 프레임워크는 혁신적인 학습 가능 융합 토큰을 사용하여 단백질 모델 구조(PLM)와 단백질 3D 구조 간에 정보를 반복적으로 교환함으로써 다양한 생물학적 과제에서 최첨단 성능을 달성합니다.
전체 보고서 보기: https://go.hyper.ai/ZZq4Q
5. OpenAI/Google의 고액 인력 빼돌리기부터 갑작스러운 채용 중단까지: Meta MSL의 핵심 인력 검토: 절반은 중국인이고 751명의 TP3T 박사가 주요 인력입니다.
2025년 8월 중순, 월스트리트 저널은 다음과 같은 소식을 전했습니다. 메타(Meta)가 대규모 AI 인재 채용을 막 마친 후 갑자기 인공지능 부서 채용을 중단했다는 소식입니다. 이후 많은 직원들이 사직서를 제출한 것으로 알려졌습니다.
전체 보고서 보기: https://go.hyper.ai/KMCvz
인기 백과사전 기사
1. 달-이
2. 상호 정렬 융합 RRF
3. 파레토 전선
4. 대규모 멀티태스크 언어 이해(MMLU)
5. 대조 학습
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.https://go.hyper.ai/wiki

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1800개 이상의 공개 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 600개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 200개 이상의 AI4Science 논문 사례 해석
* 600개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.