5만 8천 개 이상의 별점! RAGFlow는 Qwen3 Embedding을 통합하여 복잡한 형식의 데이터를 쉽게 처리하고, Webclick은 웹 페이지 이해의 새로운 차원을 열어줍니다.

메타(Meta)가 2020년에 제안한 RAG(Retrieval-Augmented Generation) 프레임워크는 LLM 출력의 정확도와 신뢰성을 효과적으로 향상시킵니다. 이 기술은 초기의 단순 검색 + 생성 방식에서 다단계 추론, 도구 사용, 컨텍스트 메모리와 같은 에이전트 기능을 갖춘 고급 형태로 발전했습니다. 현재 대부분의 RAG 엔진은 문서 파싱이 비교적 단순하고 기성 검색 미들웨어에 의존하여 검색 정확도가 낮습니다.
이를 바탕으로 InfiniFlow는 심층적인 문서 이해를 기반으로 하는 오픈소스 RAG 엔진인 RAGFlow를 오픈소스로 공개했습니다. RAGFlow는 위에서 언급한 어려움을 해결할 뿐만 아니라, 사전 구축된 RAG 워크플로를 제공합니다. 사용자는 단계별 프로세스만 따라 하면 RAG 시스템을 빠르게 구축할 수 있습니다.Qwen3 Embedding과 통합한 후에는 로컬 지식 기반, 지능형 질의응답 시스템, 에이전트를 한 번에 구축할 수 있습니다.
현재 HyperAI 공식 홈페이지에서 "RAG 시스템 구축: Qwen3 임베딩 기반 연습" 튜토리얼을 오픈했습니다. 지금 바로 체험해보세요~
RAG 시스템 구축: Qwen3 임베딩 기반 연습
온라인 사용:https://go.hyper.ai/FFA7f
6월 23일부터 6월 27일까지 hyper.ai 공식 웹사이트가 업데이트됩니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 6개
* 이번 주 추천 논문 : 5
* 커뮤니티 기사 해석 : 3개 기사
* 인기 백과사전 항목: 5개
* 7월 마감일 상위 컨퍼런스: 5개
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
1. 세카이 월드 비디오 데이터 세트
세카이(Sekai)는 비디오 생성 및 세계 탐험 분야에서 가치 있는 응용 프로그램을 개발하도록 설계된 고품질 1인칭 시점 글로벌 비디오 데이터셋입니다. 이 데이터셋은 자기중심적인 세계 탐험에 중점을 두고 있으며, 세카이-실제(Sekai-Real)와 세카이-게임(Sekai-Game)의 두 부분으로 구성됩니다. 100개 이상의 국가 및 지역, 750개 도시에서 촬영된 5,000시간 이상의 도보 또는 드론 시점 비디오를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/YyBKB

2. Ecomapper 위성 이미지 데이터 세트
이 데이터 세트에는 RGB 이미지와 특정 다중 스펙트럼 채널 데이터를 포함하여 290만 개 이상의 위성 이미지가 포함되어 있습니다. 이 데이터 이미지는 코페르니쿠스 센티넬 위성 임무에서 수집되었으며, 다양한 토지 피복 유형과 여러 시점을 포함합니다. 훈련 세트에는 98,930개의 지리적 위치가, 테스트 세트에는 5,494개의 위치가 포함되어 있습니다. 각 이미지의 타임스탬프에는 기온, 일사량, 강수량 정보와 같은 관련 기상 메타데이터가 함께 제공됩니다.
직접 사용:https://go.hyper.ai/1u8s6

3. NuScenes 자율주행 데이터 세트
NuScenes는 보스턴과 싱가포르의 40,000개 키프레임에 약 140만 개의 카메라 이미지, 390,000개의 라이더 스캔 이미지, 140만 개의 레이더 스캔 이미지, 140만 개의 객체 경계 상자가 포함된 자율 주행을 위한 공개 데이터 세트입니다.
직접 사용:https://go.hyper.ai/rgw1k
4. Tahoe-100M 단일 세포 데이터 세트
Tahoe‑100M은 세계 최대 규모의 단일 세포 데이터셋으로, 중재 이해 기능을 갖춘 대규모 언어 모델(LLM)을 위한 현실적이고 구조화된 실험 데이터 기반을 제공하도록 설계되었습니다. 이 데이터셋은 1억 개 이상의 세포를 포함하고 있으며, 6만 건 이상의 분자 중재 실험을 포괄하고 있으며, 50개의 암 모델이 1,100개 이상의 약물 치료에 어떻게 반응하는지 매핑합니다.
직접 사용:https://go.hyper.ai/Hfzva
5. WebClick 웹 페이지 이해 벤치마크 데이터 세트
WebClick은 멀티모달 모델과 에이전트가 웹 인터페이스를 이해하고, 사용자 명령을 해석하고, 디지털 환경에서 정확한 동작을 수행하는 능력을 평가하는 고품질 웹 페이지 이해 벤치마크 데이터셋입니다. 이 데이터셋은 100개 이상의 웹사이트에서 가져온 1,639개의 영어 웹 페이지 스크린샷을 포함하고 있으며, 여기에는 정확하게 주석이 달린 자연어 명령과 픽셀 단위의 클릭 목표가 함께 제공됩니다.
직접 사용:https://go.hyper.ai/ezz46
6. DeepResearch Bench DeepResearch Bench
DeepResearch Bench는 다양한 분야에서 인간의 심층 연구 요구가 실제로 어떻게 분포되어 있는지를 밝히는 것을 목표로 하는 심층 연구 에이전트 벤치마크 데이터셋입니다. 이 데이터셋은 22개 분야 전문가들이 각기 신중하게 제작한 100개의 박사급 연구 과제를 포함하고 있습니다.
직접 사용:https://go.hyper.ai/yVHfH
7. SA-Text 이미지 텍스트 데이터 세트
SA-Text는 텍스트 인식 이미지 복원 작업을 위해 설계된 고품질 장면 이미지의 대규모 벤치마크 데이터셋입니다. 이 데이터셋은 이미지 내 텍스트의 위치와 형태를 정확하게 설명하는 폴리곤 수준의 텍스트 주석이 포함된 105,330개의 고해상도 장면 이미지를 포함하고 있어, 모델이 이미지 내 텍스트의 위치와 구조를 더 잘 이해할 수 있도록 합니다.
직접 사용:https://go.hyper.ai/ICYIY
8. OCRBench 텍스트 인식 벤치마크 데이터 세트
이 데이터 세트에는 텍스트 인식, 장면 텍스트 중심, 문서 방향, 핵심 정보, 손으로 쓴 수학 표현식 등 5가지 대표적인 텍스트 관련 작업에서 수동으로 검토하고 수정한 1,000개의 질문-답변 쌍이 포함되어 있습니다.
직접 사용:https://go.hyper.ai/ZcKoD
9. Parse-PBMC 단일 세포 RNA 시퀀싱 데이터 세트
Parse-PBMC는 한 번의 실험에서 1,152개 샘플의 1,000만 개 세포를 분석하는 오픈 소스 단일 세포 RNA 시퀀싱 데이터 세트이며, 주로 다양한 조건에서 인간 말초혈액 단핵세포의 유전자 발현 특성을 연구하는 데 사용됩니다.
직접 사용:https://go.hyper.ai/CwOMc
10. VIRESET 비디오 인스턴스 편집 데이터 세트
VIRESET은 비디오 인스턴스 재작성 및 시간 분할과 같은 작업에 대한 정확한 주석 지원을 제공하는 것을 목표로 합니다. 이 데이터셋은 SA-V 강화 마스크 주석과 86k 비디오 클립이라는 두 가지 콘텐츠를 포함합니다.
직접 사용:https://go.hyper.ai/5hnGF
선택된 공개 튜토리얼
이번 주에는 두 가지 유형의 고품질 공개 튜토리얼을 모아봤습니다.
*대규모 모델 배포 튜토리얼: 3
* 비디오 생성 튜토리얼: 3
대규모 모델 배포지도 시간
1. RAG 시스템 구축: Qwen3 임베딩 기반 연습
RAGFlow는 심층적인 문서 이해를 기반으로 하는 오픈소스 RAG(Retrieval Augmented Generation) 엔진입니다. LLM과 통합되면 다양하고 복잡한 형식의 데이터에서 신뢰할 수 있는 참조를 바탕으로 실제 질의응답 기능을 제공할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/FFA7f
2. vLLM+Open WebUI를 사용하여 QwenLong-L1-32B 배포
QwenLong-L1-32B는 강화 학습 학습 기반 장문 텍스트 추론을 위한 최초의 대형 모델입니다. 이 모델은 기존 대형 모델이 매우 긴 컨텍스트(예: 12만 토큰)를 처리할 때 발생하는 메모리 부족 및 논리적 혼란 문제를 해결하는 데 중점을 둡니다. 기존 대형 모델의 컨텍스트적 한계를 극복하고 금융 및 법률과 같은 고정밀 시나리오에 적합한 저비용 고성능 솔루션을 제공합니다.
온라인으로 실행:https://go.hyper.ai/f73C2
3. vLLM+Open WebUI 배포 Magistral-Small-2506
Magistral-Small-2506은 Mistral Small 3.1(2503)을 기반으로 향상된 추론 기능, Magistral Medium 추적을 통한 SFT(Simple Transform) 및 강화 학습을 기반으로 구축되었습니다. 24B개의 매개변수를 가진 작고 효율적인 추론 모델로, 복잡한 문제를 더욱 깊이 이해하고 처리하기 위한 해답을 제공하기 전에 긴 연쇄 추론 추적을 수행하여 해답의 정확성과 합리성을 향상시킵니다.
온라인으로 실행:https://go.hyper.ai/yLeoh
비디오 생성 튜토리얼
1. MAGI-1: 세계 최초의 대규모 자기회귀 비디오 생성 모델
Magi-1은 세계 최초의 대규모 자기회귀 비디오 생성 모델로, 연속된 프레임의 고정 길이 세그먼트로 정의된 일련의 비디오 블록을 자기회귀적으로 예측하여 비디오를 생성합니다. 텍스트 명령어를 기반으로 하는 이미지-비디오 변환 작업에서 뛰어난 성능을 발휘하며, 높은 시간적 일관성과 확장성을 제공합니다.
온라인으로 실행:https://go.hyper.ai/NZ6cc
2. FramePackLoop: 오픈 소스 원활한 루핑 비디오 생성 도구
FramePackLoop는 비디오 제작 워크플로우를 간소화하도록 설계된 자동화된 프레임 시퀀스 처리 및 루프 생성 도구입니다. 이 도구는 모듈식 아키텍처를 사용하여 프레임 시퀀스 패킹, 시간 정렬 및 원활한 루프 합성을 구현합니다. 특히, 광학 흐름 추정과 주의 기반 시간 모델링을 결합하여 프레임 간 동작의 일관성을 유지합니다.
온라인으로 실행:https://go.hyper.ai/WIRoM

3. VIRES: 스케치와 텍스트가 결합된 듀얼 가이드 비디오 리드로잉
VIRES는 스케치와 텍스트 가이드를 결합한 비디오 인스턴스 재작성 방식으로, 비디오 피사체 재작성, 교체, 생성 및 제거와 같은 다양한 편집 작업을 지원합니다. 이 방법은 텍스트 생성 비디오 모델에 대한 사전 지식을 활용하여 시간적 일관성을 보장합니다. 실험 결과, VIRES는 비디오 품질, 시간적 일관성, 조건부 정렬, 사용자 평점 등 여러 측면에서 우수한 성능을 보였습니다.
온라인으로 실행:https://go.hyper.ai/GeZxZ

💡또한, 안정적 확산 튜토리얼 교환 그룹도 만들었습니다. 친구들을 환영합니다. QR 코드를 스캔하고 [SD 튜토리얼]에 댓글을 남겨 그룹에 가입하여 다양한 기술 문제를 논의하고 신청 결과를 공유하세요~

이번 주 논문 추천
1. 드래그 앤 드롭 LLM: 제로 샷 프롬프트-투-웨이트
본 논문에서는 드래그 앤 드롭 방식의 대규모 언어 모델(DnD)을 소개합니다. DnD는 프롬프트 기반 매개변수 생성기로, 레이블이 지정되지 않은 소수의 작업 프롬프트를 LoRA 가중치 업데이트에 직접 매핑하여 작업별 학습을 불필요하게 합니다. 경량 텍스트 인코더는 각 프롬프트 배치를 조건부 임베딩으로 정제하고, 이 임베딩은 계단식 하이퍼컨볼루션 디코더를 통해 전체 LoRA 행렬 집합으로 변환됩니다.
논문 링크:https://go.hyper.ai/hAO8y
2. 법선의 빛: 범용 광도 스테레오를 위한 통합된 특징 표현
본 논문에서는 임의의 조명 조건에서 고정밀 표면 법선(normal)을 복원하는 문제를 해결하기 위한 새로운 범용 광도 스테레오(UniPS) 기법을 제안합니다. 실험 결과, LINO-UniPS는 공개 벤치마크에서 기존의 최첨단 범용 광도 스테레오 기법보다 우수한 성능을 보였으며, 다양한 재료 특성 및 조명 시나리오에 대한 뛰어난 일반화 성능을 보였습니다.
논문 링크:https://go.hyper.ai/oTFMo
3. 비전 기반 청킹만 있으면 됩니다. 다중 모드 문서 이해를 통해 RAG를 강화하세요.
본 논문에서는 대규모 멀티모달 모델(LMM)을 활용하여 의미적 일관성과 구조적 무결성을 유지하면서 PDF 문서를 일괄 처리하는 새로운 멀티모달 문서 청킹 방법을 제안합니다. 이 방법은 구성 가능한 페이지 배치 단위로 문서를 처리하고 배치 전체에 걸쳐 문맥 정보를 보존하여 여러 페이지에 걸쳐 표, 내장된 시각적 요소 및 절차적 콘텐츠를 정확하게 처리할 수 있도록 합니다.
논문 링크:https://go.hyper.ai/IZA15
4. OmniGen2: 탐색부터 고급 멀티모달 생성까지
본 논문에서는 텍스트-이미지 생성, 이미지 편집, 컨텍스트 생성 등 다양한 생성 작업을 위한 통합 솔루션을 제공하는 다재다능한 오픈 소스 생성 모델인 OmniGen2를 소개합니다. OmniGen v1과 달리, OmniGen2는 비공유 매개변수와 별도의 이미지 토크나이저를 사용하여 텍스트 및 이미지 모달리티에 대해 두 개의 독립적인 디코딩 경로를 설계합니다. 이러한 설계를 통해 OmniGen2는 VAE 입력을 재조정하지 않고도 기존 다중 모달 이해 모델을 기반으로 구축할 수 있으므로, 원본 텍스트 생성 기능을 그대로 유지할 수 있습니다.
논문 링크:https://go.hyper.ai/iCFzp
5. PAROAttention: 시각적 생성 모델에서 효율적인 희소 및 양자화된 주의를 위한 패턴 인식 재정렬
본 논문은 다양한 어텐션 패턴을 하드웨어 친화적인 블록 패턴으로 통합하는 새로운 패턴 인식 태그 재정렬(PARO) 기법을 제안합니다. 이 통합은 희소화 및 양자화 효과를 크게 단순화하고 향상시킵니다. 이 방법을 통해 PARO 어텐션은 메트릭 손실이 거의 없이 비디오 및 이미지 생성을 달성하며, 밀도와 비트 폭을 크게 줄임으로써 전 정밀도 기준선과 거의 동일한 결과를 달성하여 종단 간 지연 시간을 1.9배에서 2.7배까지 가속화합니다.
논문 링크:https://go.hyper.ai/sScNH
더 많은 AI 프런티어 논문:https://go.hyper.ai/iSYSZ
커뮤니티 기사 해석
1. DeepMind는 모든 세포 유형과 모달리티에 대한 돌연변이의 영향을 1초 이내에 예측하는 AlphaGenome을 출시했습니다.
구글 딥마인드(DeepMind)는 알파게놈(AlphaGenome) 모델을 출시했습니다. 이 모델은 조절 활성과 관련된 수천 개의 분자적 특성을 예측할 수 있으며, 변이체와 비변이체 서열의 예측 결과를 비교하여 유전자 변이 또는 돌연변이의 영향을 평가할 수도 있습니다. 알파게놈의 중요한 혁신 중 하나는 서열에서 직접 스플라이싱 접합을 예측하고 이를 변이체 효과 예측에 활용할 수 있다는 것입니다.
전체 보고서 보기:https://go.hyper.ai/o8E1F
2. 청화창궁병원의 리동은 전체심장모델부터 LLM기반 질병네트워크 분석까지 데이터 관점에서 의료 빅모델의 발전 추세를 분석했다.
칭화 창궁 병원 의료데이터과학센터 소장인 리동 교수는 2025년 베이징 지식인 학술대회에서 "스마트 헬스케어 시대에 의료데이터를 활용한 혁신적 연구 수행 방법"을 주제로 특별 발표를 하며, 스마트 헬스케어 시대에 빅모델이 가져오는 혁신을 소개했습니다.
전체 보고서 보기:https://go.hyper.ai/rAabv
3. Evo 2에 이어 Arc Institute는 70개의 다양한 세포주를 포함하는 훈련 데이터를 포함하는 최초의 가상 세포 모델 STATE를 출시했습니다.
비영리 연구 기관인 아크 연구소(Arc Institute)는 UC 버클리, 스탠퍼드 및 기타 대학의 연구팀과 협력하여 줄기세포, 암세포, 면역세포의 약물, 사이토카인 또는 유전자 개입에 대한 반응을 예측할 수 있는 가상 세포 모델 STATE를 출시했습니다. 실험 결과, State는 개입 후 전사체 변화를 예측하는 데 있어 기존의 주류 방법보다 훨씬 우수한 성능을 보였습니다.
전체 보고서 보기:https://go.hyper.ai/B3Rc6
인기 백과사전 기사
1. 달-이
2. 상호 정렬 융합 RRF
3. 파레토 전선
4. 대규모 멀티태스크 언어 이해(MMLU)
5. 대조 학습
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.
정상회담 7월 마감일
7월 2일 7:59:59 VLDB 2026
7월 11일 7:59:59 포플 2026
7월 15일 7:59:59 소다 2026
7월 18일 7:59:59 시그모드 2026
7월 19일 7:59:59 ICSE 2026
최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!