이미지 편집 분야의 새로운 최첨단 기술! Qwen-Image-Edit은 의미론적 편집 기능과 외관 편집 기능을 모두 결합했습니다. Granary는 25개 유럽 언어의 다국어 모델에 대한 데이터 부족 문제를 해결합니다.

特色图像

이미지 모델이 계속 개발되고 성숙해짐에 따라, 사용자는 더 이상 단일 이미지 생성에 국한되지 않고 대규모 모델을 사용하려는 요구가 늘어나고 있으며, 기존 이미지에 대해 보다 세부적이고 제어 가능한 수정을 하기를 원합니다. "편집"은 "생성"보다 더 세부적이고 세부적인 사용 요구 사항입니다.기존의 이미지 편집 소프트웨어(예: 포토샵)는 특정 사용 한계가 있으며 사용자가 체계적인 학습을 수행해야 하는 경우가 많습니다. 반면, 현재의 이미지 편집 AI 애플리케이션은 기능과 효과 모두에서 개선의 여지가 있으며, 특히 텍스트 렌더링 및 편집 기능 면에서 개선의 여지가 있습니다.

이를 바탕으로,알리통 이첸웬 팀은 의미론과 모양의 이중 편집 기능을 갖춘 전방위 이미지 편집 모델인 Qwen-Image-Edit을 출시했습니다.이는 외관 편집의 지시 의도를 정확하게 이해할 수 있을 뿐만 아니라, 이미지의 시각적 스타일의 일관성을 유지하면서 고급 시각적 의미 편집을 수행할 수 있습니다.이 모델은 Qwen-Image의 뛰어난 중국어 텍스트 렌더링 기능을 이미지 편집 분야로 확장하여 이미지 속 텍스트를 정밀하게 편집할 수 있게 해줍니다.

Qwen-Image의 새로운 버전인 Qwen-Image-Edit은 이미지 생성, 체인 편집에서 최종 효과 표현까지의 폐쇄 루프를 개선하여 이미지의 사용성을 크게 향상시킵니다.다양한 공개 벤치마크에 대한 평가를 통해 이미지 편집 작업에서 최첨단 성능이 입증되었습니다.

HyperAI 공식 웹사이트에서 "Qwen-Image-Edit: 올인원 이미지 편집 모델 데모"를 출시했습니다. 지금 바로 체험해 보세요!

온라인 사용:https://go.hyper.ai/nmjYo

8월 18일부터 8월 22일까지 hyper.ai 공식 웹사이트 업데이트에 대한 간략한 개요를 소개합니다.

* 고품질 공개 데이터 세트: 10

* 고품질 튜토리얼 선택: 4개

* 이번 주 추천 논문 : 5

* 커뮤니티 기사 해석 : 5개 기사

* 인기 백과사전 항목: 5개

* 8월 마감일 상위 컨퍼런스: 2

공식 웹사이트를 방문하세요:하이퍼.AI

선택된 공개 데이터 세트

1. Granary 유럽 음성 인식 및 번역 데이터 세트

Granary는 NVIDIA에서 출시한 대규모 다국어 음성 데이터셋으로, 다국어 ASR/AST 모델을 위한 고품질 학습 및 평가 자료를 제공하도록 설계되었습니다. 이 데이터셋은 25개 유럽 언어를 포함하는 약 100만 시간 분량의 고품질 의사 레이블링된 ASR 음성 데이터를 포함하고 있습니다.

직접 사용:https://go.hyper.ai/D3926

2. M3-Bench 장편 비디오 질의응답 벤치마크 데이터 세트

ByteDance Seed 팀이 공개한 장편 비디오 질의응답 벤치마크 데이터셋인 M3-Bench는 멀티모달 에이전트의 장기 기억 및 추론 능력을 평가하도록 설계되었습니다. 이 데이터셋은 1,020개의 비디오 샘플을 포함하고 있으며, 각 샘플에는 자막, 중간 출력, 그리고 메모리 그래프가 포함되어 있습니다.

직접 사용:https://go.hyper.ai/LIHsO

3. HiFiTTS-2 대규모 고대역폭 음성 데이터 세트

HiFiTTS-2는 고품질 제로샷 텍스트 음성 변환(TTS) 모델의 학습 및 평가를 지원하도록 설계된 대규모 고대역폭 음성 데이터셋입니다. 이 데이터셋은 5,000명의 화자 오디오 메타데이터, 약 36,700시간 분량의 22.05kHz 영어 음성 녹음, 약 31,700시간 분량의 44.1kHz 영어 음성 녹음을 포함하며, 대역폭 품질 및 샘플링 레이트를 기준으로 계층화되어 있습니다.

직접 사용:https://go.hyper.ai/XZwDD

4. CulturalGround 다국어 문화 시각적 질의응답 데이터 세트

CulturalGround는 카네기 멜론 대학교 NeuLab에서 발표한 문화적 지식 정렬을 위한 다국어 및 다중 모드 시각적 질의응답 데이터셋입니다. 틈새 문화권과 저자원 언어에 대한 다중 모드 대규모 언어 모델의 이해 및 추론 능력 향상을 목표로 합니다.

직접 사용:https://go.hyper.ai/wayAA

5. HPDv3 인간 선호도 데이터 세트

HPDv3는 홍콩 중문대학교의 MizzenAI와 MMLab이 발표한 최초의 광범위한 인간 선호도 데이터셋입니다. 관련 논문은 ICCV 2025에 선정되었습니다. 이 데이터셋은 텍스트-이미지 생성 모델의 정렬, 순열 및 평가를 위해 설계되었으며, 인간의 미적 감각에 부합하고 의미적 일관성을 개선하는 모델 개발을 촉진하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/xV8fK

6. COREVQA 시각적 질의응답 벤치마크 데이터세트

알고버스 AI 연구 센터(Algoverse AI Research Center)에서 발표한 시각적 질의응답 벤치마크 데이터셋인 COREVQA는 군중 장면에서 시각 언어 모델(VLM)의 추론 능력을 평가하도록 설계되었습니다. 이 데이터셋은 주로 실제 군중 장면을 다루며, 폐색, 시점 변화, 배경 간섭과 같은 난제에 중점을 둡니다. 복잡한 사회적 상황에서 VLM의 세밀한 인식 및 추론 능력을 향상시키는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/tOFNw

7. DDOS UAV 깊이 및 장애물 분할 데이터 세트

DDOS는 드론 자율성 알고리즘 개발을 향상시키기 위해 설계된 합성 항공 이미지 데이터셋입니다. 이 데이터셋은 환경 유형별로 신중하게 분류됩니다. 훈련 세트는 300회의 비행으로 총 30,000장의 이미지로 구성되고, 검증 세트는 20회의 비행으로 총 2,000장의 이미지로 구성되며, 테스트 세트는 20회의 비행으로 총 2,000장의 이미지로 구성됩니다.

직접 사용:https://go.hyper.ai/XRE6R

데이터 세트 예제

8Nemotron 다중 도메인 추론 데이터 세트

Nemotron은 NVIDIA에서 출시한 다중 도메인 추론 데이터 세트로, Llama 모델의 추론 효율성과 정확도를 향상시키도록 설계되었습니다. 이 데이터 세트는 대화, 코드, 수학, STEM, 도구 호출의 다섯 가지 범주를 포괄하는 2,566만 개의 샘플을 포함합니다.

직접 사용:https://go.hyper.ai/WP2Ym

9. 문서 Haystack 다중 모달 문서 벤치마크 데이터 세트

Document Haystack은 Amazon AGI에서 출시한 다중 모드 문서 벤치마크 데이터셋입니다. 400개의 문서 변형과 8,250개의 검색 질문이 포함되어 있습니다. 길고 복잡한 맥락의 문서에서 시각 언어 모델(VLM)의 정보 검색 및 이해 능력을 평가하는 것을 목표로 합니다.

직접 사용:https://go.hyper.ai/Q08Xt

10. CSEMOTIONS 감성 오디오 데이터 세트

CSEMOTIONS는 제어 가능성 및 자연어 음성 생성 연구를 지원하도록 설계된 감정 오디오 데이터셋입니다. 이 데이터셋은 10명의 전문 성우가 녹음한 차분함, 행복함, 분노를 포함한 7가지 감정 범주를 아우르는 약 10시간 분량의 고품질 오디오 데이터를 포함하고 있습니다.

직접 사용:https://go.hyper.ai/4fe7A

선택된 공개 튜토리얼

1. vLLM + Open-WebUI 배포 Jan-v1-4B

Jan-v1-4B는 Jan 팀이 출시한 40억 개의 매개변수를 가진 오픈소스 언어 모델입니다. 지능형 바디 기반 추론 및 도구 호출을 목표로 하는 Jan 제품군의 첫 번째 릴리스이며, Jan 앱의 실제 워크플로 시나리오에 최적화되어 있습니다. Qwen3-4B-Thinking-2507을 기반으로 하는 이 모델은 미세 조정 및 확장되어 SimpleQA 벤치마크에서 91.1%의 정확도를 달성했습니다. 이는 모델 확장 및 튜닝을 통해 상당한 성능 향상을 달성했음을 보여줍니다.

온라인으로 실행:https://go.hyper.ai/CZf3s

프로젝트 예시

2. 유방암 진단 데이터 세트 머신 러닝 분류 예측 튜토리얼

위스콘신 유방암 진단 데이터셋(WDBC)을 기반으로 하는 이 튜토리얼은 이진 분류 문제에 대한 전체 머신러닝 프로세스를 보여줍니다. 이 튜토리얼은 특성 선택, 모델 튜닝 및 결과 시각화의 핵심 논리를 이해하는 데 도움이 되며, 다른 질병에 대한 진단 모델링을 위한 참고 자료를 제공합니다.

온라인으로 실행:https://go.hyper.ai/zFjil

3. Qwen-Image-Edit: 모든 이미지 편집 모델 데모

Qwen-Image-Edit은 Alibaba Tongyi Qianwen 팀이 개발한 포괄적인 이미지 편집 모델입니다. 의미론적 편집 기능과 시각적 편집 기능을 모두 갖추고 있으며, 중국어와 영어 텍스트의 정밀한 편집을 지원하고, 이미지 내 텍스트를 원본 글꼴, 크기 및 스타일을 그대로 유지하면서 수정할 수 있습니다.

온라인으로 실행:https://go.hyper.ai/nmjYo

효과 예시

4. Qwen3-4B-2507의 원클릭 배포

Qwen3-4B-Thinking-2507과 Qwen3-4B-Instruct-2507은 Alibaba Tongyi Qianwen 팀이 개발한 대규모 언어 모델입니다. 성능 측면에서 Qwen3-4B-Thinking-2507은 복잡한 문제 추론, 수학적 기능, 코딩 기능, 그리고 다중 라운드 함수 호출 기능 측면에서 동일한 크기의 더 작은 Qwen3 모델보다 훨씬 우수한 성능을 보입니다. 비추론 영역에서 Qwen3-4B-Instruct-2507은 지식, 추론, 프로그래밍, 정렬, 그리고 에이전트 기능 측면에서 폐쇄형 소스 소규모 GPT-4.1-nano 모델을 전반적으로 능가하며, 중간 규모의 Qwen3-30B-A3B(비추론)와 유사한 성능을 보입니다.

온라인으로 실행:https://go.hyper.ai/HiqSR

프로젝트 예시

💡또한, 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~

이번 주 논문 추천

1. 디노브3

이 기술 보고서는 고품질의 고밀도 특징을 생성하고 다양한 비전 작업에서 탁월한 성능을 보이는 DINOv3를 소개합니다. 이는 기존의 자기 지도 학습 및 약지도 학습 기준 모델보다 훨씬 뛰어난 성능을 보여줍니다. 연구진은 또한 다양한 리소스 제약 및 배포 시나리오에 대응하는 확장 가능한 솔루션을 제공함으로써 광범위한 작업 및 데이터세트에서 최첨단 기술을 발전시키는 것을 목표로 하는 DINOv3 비전 모델 제품군을 출시했습니다.

논문 링크:https://go.hyper.ai/tBuYx

2. Ovis2.5 기술 보고서

본 논문에서는 Ovis2의 후속 버전인 Ovis2.5를 소개합니다. Ovis2.5는 네이티브 해상도 시각 인식과 강력한 멀티모달 추론을 위해 설계되었습니다. Ovis2.5는 이미지를 네이티브 가변 해상도로 직접 처리하는 네이티브 해상도 시각 변환기를 통합하여 고정 해상도 분할과 관련된 품질 저하를 방지하는 동시에 미세한 디테일과 글로벌 레이아웃을 완벽하게 보존합니다.

논문 링크:https://go.hyper.ai/jlEXl

3. SSRL: 자기 탐색 강화 학습

연구자들은 강화 학습(RL)에서 에이전트 검색 작업을 위한 효율적인 시뮬레이터로서 대규모 언어 모델(LLM)의 잠재력을 연구하여, 값비싼 외부 검색 엔진 상호작용에 대한 의존도를 줄였습니다. 실증적 평가 결과, SSRL로 학습된 정책 모델은 검색 기반 강화 학습을 위한 저렴하고 안정적인 환경을 제공하여 외부 검색 엔진에 대한 의존도를 크게 줄이고 시뮬레이션에서 현실로의 견고한 전환을 촉진하는 것으로 나타났습니다.

논문 링크:https://go.hyper.ai/4TFRe

4. 타임: 이미지를 넘어 생각하다

현재 독점 모델과 비슷한 기능 세트를 제공하는 오픈 소스 작업이 없기 때문에 본 논문에서는 이 방향으로 예비 탐색을 수행하고 다중 모드 대규모 언어 모델(MLLM)이 기존의 "이미지를 통한 사고" 방법을 넘어 실행 가능한 코드를 통해 다양한 이미지 처리 및 계산 작업을 자율적으로 생성하고 수행할 수 있도록 하는 Thyme(Think Beyond Images)을 제안합니다.

논문 링크:https://go.hyper.ai/ZhLMI

5. 에이전트 체인: 다중 에이전트 증류 및 에이전트 RL을 통한 엔드투엔드 에이전트 기반 모델

대부분의 기존 다중 에이전트 시스템은 수작업으로 생성된 프롬프트나 워크플로 엔지니어링에 의존하고 복잡한 에이전트 프레임워크를 기반으로 구축되어 있어 계산 비효율성, 기능 제한, 데이터 중심 학습의 이점을 활용하지 못하는 문제점을 안고 있습니다. 본 연구는 다중 에이전트 시스템과 동일한 메커니즘을 사용하여 단일 모델 내에서 엔드 투 엔드 복잡한 문제 해결을 기본적으로 지원하는 새로운 LLM 추론 패러다임인 에이전트 체인(CoA)을 제안합니다.

논문 링크:https://go.hyper.ai/5m3gV

더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ

커뮤니티 기사 해석

1. ACL 2025 | 옥스포드 대학교 등은 의료 GraphRAG를 제안하여 질의응답 정확도에서 새로운 기록을 세우고 11개 데이터 세트에 대한 SOTA 결과를 달성했습니다.

옥스퍼드 대학교와 다른 연구진의 공동 연구팀은 의학 분야를 위한 그래프 기반 RAG 방법인 Medical GraphRAG를 제안했습니다. 이 방법은 근거 기반 답변과 공식 의학 용어 설명을 생성하여 의학 분야에서 LLM의 성과를 효과적으로 향상시킵니다.

전체 보고서 보기:https://go.hyper.ai/3458z

2. 온라인 튜토리얼 요약 | Qwen은 텍스트 렌더링/비디오 제작/프로그래밍 지원을 포함한 SOTA 수준 모델을 지속적으로 출시합니다.

통이 첸웬(Tongyi Qianwen) 팀은 아키텍처 혁신, 효율성 향상, 그리고 심층 분석 시나리오에서의 획기적인 성과에 집중하여 오픈소스 모델 매트릭스를 지속적으로 강화하고 있으며, 업계 선두주자들과 동등한 성능을 달성하고 있습니다. HyperAI 공식 웹사이트의 "튜토리얼" 섹션에는 통이의 오픈소스 모델 튜토리얼이 여러 개 게시되어 있습니다.

전체 보고서 보기:https://go.hyper.ai/JKJTY

3. 코넬 대학교는 초고속 데이터와 무선 통신 신호를 동시에 처리하는 "마이크로파 두뇌" 칩을 개발하여 176밀리와트의 전력에서 75%의 정확도를 달성했습니다.

코넬 대학교 연구팀은 초고속 데이터와 무선 통신 신호를 동시에 처리할 수 있는 마이크로파 신경망(MNN)이라는 집적 회로를 제안했습니다. 낮은 전력 소모와 작은 크기로 고대역폭 애플리케이션에 새로운 솔루션을 제공할 수 있습니다.

전체 보고서 보기:https://go.hyper.ai/Cki2I

4. AI는 효율적인 바이오 제조를 가능하게 합니다. 화동과학기술대학교의 좡잉핑 교수는 지능형 바이오 제조 기술 시스템과 그 실제 성과에 대한 심층 분석을 제공합니다.

2025년 상하이 교통대학교 AI 생명공학 여름학교에서 화둥과학기술대학교 장잉핑 교수는 "AI를 활용한 효율적인 바이오 제조 공정 지원"에 대한 자신의 견해를 발표했습니다. 장 교수는 바이오 제조와 합성생물학의 관계, 합성생물학 제품의 응용 분야, 그리고 지능형 바이오 제조 기술 및 실무라는 세 가지 측면에서 기술 시스템과 팀의 성과를 소개했습니다.

전체 보고서 보기:https://go.hyper.ai/LgKcG

5. 원스톱 단백질 제로 샘플 돌연변이 예측/기능 예측: 상하이 교통대학교 VenusFactory, 풀스택 단백질 엔지니어링 개발 달성

단백질 공학 분야에서 인공 지능의 광범위한 응용을 촉진하기 위해 상하이 교통대학교의 홍량 교수 연구 그룹은 생물학적 데이터 검색, 표준화된 작업 벤치마킹, 사전 학습된 단백질 언어 모델을 통합하는 원스톱 오픈 소스 단백질 공학 워크벤치인 VenusFactory를 개발했습니다.

전체 보고서 보기:https://go.hyper.ai/p3llU

인기 백과사전 기사

1. 달-이

2. 상호 정렬 융합 RRF

3. 파레토 전선

4. 대규모 멀티태스크 언어 이해(MMLU)

5. 대조 학습

다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.https://go.hyper.ai/wiki

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event

위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!

다음주에 뵙겠습니다!