ICML 최우수 논문 SD3 공개 튜토리얼 온라인! DreamBench++는 인간의 선호도와 깊은 일치를 이루는 자동 이미지 평가를 위한 새로운 벤치마크입니다.

최근 ICML 2024의 최고 논문이 발표되었습니다! 여기에는 연간 이미지를 생성하기 위한 "인터넷 유명인 모델"인 Stable Diffusion 3(약칭 SD3)이 포함됩니다. SD3는 Stability AI가 개발한 최신 텍스트-이미지 생성 모델로, 얼마 전 전체 네트워크에 오픈 소스로 공개되었습니다!하이퍼AI Super Neuro는 이제 ComfyUI 워크플로에서 SD3를 실행하는 방법에 대한 튜토리얼을 출시했습니다.이 논문을 읽으면서 SD3의 기술 혁신을 경험해 보세요!
SD3 튜토리얼 링크:https://go.hyper.ai/ojO3g
7월 22일부터 7월 26일까지 hyper.ai 공식 웹사이트가 업데이트되었습니다.
* 고품질 공개 데이터 세트: 10
* 고품질 튜토리얼 선택: 3개
* 커뮤니티 기사 선정: 4개 기사
* 인기 백과사전 항목: 5개
* 8월 마감일 상위 컨퍼런스: 4
공식 웹사이트를 방문하세요:하이퍼.AI
선택된 공개 데이터 세트
이 데이터 세트에는 9개의 살아있는 개체(개와 고양이 등)와 21개의 사물을 포함하여 다양한 범주의 30개 개체가 포함되어 있으며, 각 개체마다 4~6개의 이미지가 있습니다. 적은 수의 이미지로 모델을 훈련할 수 있으므로, 핵심적인 시각적 특징을 그대로 유지하면서 다양한 맥락에서 특정 개인의 이미지를 생성할 수 있습니다.
직접 사용:https://go.hyper.ai/Jiqg6
이 데이터 세트에는 581,000개의 문단과 729,000개의 빈칸이 포함되어 있으며, 여러 도메인을 포괄합니다. ChID에서는 문단의 관용구가 공백으로 대체됩니다. 각 빈칸에는 황금 관용어를 포함한 후보 관용어 목록이 선택 항목으로 제공됩니다.
직접 사용:https://go.hyper.ai/dt4AR
이 데이터 세트는 칭화대학교가 2021년에 출시한 중국 고전시 매칭 데이터 세트로, 훈련 세트(21,778개 문장), 검증 세트(2,720개 문장) 및 테스트 세트(2,720개 문장)로 구성되어 있습니다.
직접 사용:https://go.hyper.ai/ymhF6
4.MMDU 초장편 다중 이미지 다중 턴 대화 이해 데이터 세트
MMDU 벤치마크는 1,600개 이상의 질문으로 구성된 110개의 고품질 다중 이미지 다중 턴 대화로 구성되어 있으며, 각 질문에는 자세한 긴 답변이 포함되어 있습니다. MMUD의 문제는 2~20개의 이미지와 관련이 있으며, 평균 이미지와 텍스트 태그 길이는 8.2K이고 최대 이미지와 텍스트 태그 길이는 18K로 기존의 다중 모드 대규모 모델에 상당한 어려움을 안겨줍니다.
직접 사용:https://go.hyper.ai/vNyjl
5. ModeINet10 Princeton 3D 객체 데이터 세트
ModelNet10 데이터 세트는 ModelNet40 데이터 세트의 일부로, 욕조, 침대, 의자, 테이블 등 10가지 범주의 CAD 가구 모델의 미리 정렬된 모양 4,899개를 포함합니다. 그 중 3,991개(80%)의 모양이 학습에 사용되고, 908개(20%)의 모양이 테스트에 사용됩니다.
직접 사용:https://go.hyper.ai/ZPFKs
데이터 세트에는 이미지 폴더와 레이블 폴더가 포함되어 있습니다. 이미지 폴더에는 학습을 위한 train(374개 이미지)과 검증을 위한 Val(111개 이미지)이라는 두 개의 하위 폴더가 있습니다.
직접 사용:https://go.hyper.ai/WAKTy
7. baike_qa2019 백과사전 Q&A JSON 버전 데이터 세트
이 데이터 세트에는 150만 개의 사전 필터링된 고품질 질문과 답변이 포함되어 있으며, 각 질문은 하나의 카테고리에 속합니다. 총 492개의 카테고리가 있으며, 그 중 10회 이상 빈도가 높은 카테고리는 434개입니다.
직접 사용:https://go.hyper.ai/3KWJ8
8. DreamBench++ 이미지 자동 평가 벤치마크 데이터 세트
DreamBench++는 칭화대학교, 시안교통대학교, 일리노이대학교 어바나-샴페인 캠퍼스, 중국과학원, Megvii의 연구진이 개인화된 이미지 생성 기술 평가의 문제점을 해결하기 위해 2024년에 공동으로 출시한 새로운 벤치마크입니다. 멀티모달 기능을 갖춘 GPT-4o를 도입하여 인간의 선호도에 따른 심층적인 정렬과 자동 평가를 구현하고, 보다 포괄적이고 다양한 데이터 세트를 제공합니다.
직접 사용:https://go.hyper.ai/glVDV
9. COVID-19 방사선 데이터베이스 흉부 X선 이미지 데이터베이스
이 데이터 세트에는 COVID-19 양성 사례 3,616건, 정상 사례 10,192건, 폐 불투명도(COVID-19가 아닌 폐 감염) 사례 6,012건, 바이러스성 폐렴 이미지와 해당 폐 마스크 이미지 1,345건이 포함되어 있어 연구자들이 COVID-19 팬데믹 동안 연구를 수행하는 데 도움이 됩니다.
직접 사용:https://go.hyper.ai/89Wxz
10. Oceanlnstruct Ocean 대형 모델 명령 데이터 세트
이 데이터 세트에는 20,000개의 명령어가 포함되어 있으며, 해양 분야의 대규모 언어 모델을 위한 훈련 데이터를 제공하도록 설계되었습니다. 이 지침은 광범위한 해양 과학 지식을 포괄하여 해당 모델이 해양 과학 질문에 대한 답변, 콘텐츠 생성, 수중 구현 정보 기능 면에서 전문적인 역량을 갖추고 있음을 보장합니다.
직접 사용:https://go.hyper.ai/WuYlv
더 많은 공개 데이터 세트를 보려면 다음을 방문하세요.
선택된 공개 튜토리얼
1. 온라인 튜토리얼 | Stable Diffusion 3 Medium이 이제 오픈 소스로 공개되었습니다. 클릭 한 번으로 창의적인 여정을 시작하세요!
이미지 처리 분야를 선도하는 Stability AI의 오픈 소스 모델인 Stable Diffusion 3 Medium(SD3)은 이미지 품질, 복잡한 프롬프트에 대한 이해, 리소스 효율성 측면에서 상당한 개선을 보였습니다. 사실적인 디테일, 밝은 색상, 자연광을 활용한 이미지를 생성할 수 있으며, 다양한 스타일에 적응할 수 있습니다! 이 튜토리얼은 SD3의 텍스트와 이미지 기능을 ComfyUI의 워크플로와 결합하여 바로 창작 여정을 시작할 수 있도록 도와줍니다.
온라인으로 실행:https://go.hyper.ai/ojO3g
2. Kolors Kuaishou 텍스트와 이미지의 대형 모델 데모
Kolors는 Kuaishou Kolors 팀이 개발한 잠재 확산을 기반으로 한 대규모 텍스트-이미지 생성 모델입니다. 수십억 개의 텍스트-이미지 쌍으로 학습된 Kolors는 시각적 품질, 복잡한 의미적 정확도, 중국어와 영어 문자에 대한 텍스트 렌더링 측면에서 오픈 소스 및 폐쇄 소스 모델에 비해 상당한 이점을 보여줍니다. 이 튜토리얼에서는 어떤 명령도 입력할 필요가 없으며, 한 번의 클릭으로 복제하여 즉시 이미지 생성을 시작할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/ur8q7
3. 원클릭 배포 Mistral-Nemo-Instruct-2407
Mistral-Nemo-Instruct-2407은 Mistral AI와 NVIDIA가 공동으로 오픈 소스로 공개한 Mistral-Nemo-Base-2407 명령어의 미세 조정 버전이며, 기존의 더 작거나 비슷한 크기의 모델보다 성능이 훨씬 뛰어납니다. Mistral NeMo는 120억(12B)개의 매개변수와 128k의 컨텍스트 창을 가지고 있으며, 추론, 세계 지식, 인코딩 정확도가 비슷한 규모에서 선두를 달리고 있습니다. 이 튜토리얼은 Mistral-Nemo-Instruct-2407을 한 번의 클릭으로 배포하는 방법입니다. 관련 환경과 종속성이 설치되었습니다. 추론을 경험하기 위해서는 그것을 복제하기만 하면 됩니다.
온라인으로 실행:https://go.hyper.ai/zGkci
커뮤니티 기사
1. 작은 모델, 큰 돌파구! 신경망은 공간적 이질성을 꿰뚫어보고 복잡한 지리적 현상을 정확하게 설명합니다.
"AI4S를 만나다" 라이브 방송 시리즈의 첫 번째 에피소드에서 HyperAI는 저장대학교에서 원격 감지 및 지리 정보 시스템 분야의 박사과정 학생인 딩 지얼레를 초대하게 되어 기뻤습니다. 그는 "신경망이 주택 가격의 공간적 이질성에 대한 새로운 설명을 제공한다"라는 제목으로 자신의 연구 결과를 자세하고 이해하기 쉽게 설명했습니다. 이 글은 딩 박사님의 공유 내용을 요약한 것입니다.
전체 보고서 보기:https://go.hyper.ai/g2fXy
2. 화중과학기술대학은 제로샷 러닝을 도입하여 갑골문 해독에 최적화된 조건부 확산 모델을 출시했습니다.
화중과학기술대학의 바이샹과 류율량 연구팀은 애들레이드 대학, 안양사범대학, 남중국이공대학과 협력하여 이미지 기반 생성 모델을 사용하여 오라클 뼈 비문 해독에 최적화된 조건부 확산 모델(OBSD)을 학습시켰습니다. 이를 통해 자연어 처리를 사용하여 해결하기 어려운 고대 문자 인식 작업에 대한 새로운 접근 방식을 제공했습니다. 본 논문은 관련 논문에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/fLcZU
자율주행은 고품질 데이터 세트가 중요한 역할을 하는 새로운 "엔드투엔드" 시대를 열어갑니다. 이와 관련하여 HyperAI는 모든 사람이 수집하여 사용할 수 있도록 인기 있는 오픈소스 자율주행 데이터 세트 10개를 편집했습니다.
전체 보고서 보기:https://go.hyper.ai/5nj1s
4. ACL 2024에 선정되었습니다! 저장대학교, 최초의 해양 언어 모델 OceanGPT 출시로 수중 체현 지능 실현
저장대학교 컴퓨터과학기술학원의 장닝위와 천화준 연구팀은 해양 분야 최초의 대규모 언어 모델인 OceanGPT를 제안했습니다. OceanGPT는 해양학자의 지시에 따라 질문에 답할 수 있으며, 해양 공학 분야에서 초기 구현 지능 역량을 갖추고 있습니다. 본 논문은 관련 논문에 대한 자세한 해석과 공유입니다.
전체 보고서 보기:https://go.hyper.ai/b6tqu
인기 백과사전 기사
1. 스케일링 법칙
2. 마스크드 언어 모델링(MLM)
3. 데이터 증강
4. 장기 단기 기억 단기 기억
5. 양자 신경망
다음은 "인공지능"을 이해하는 데 도움이 되는 수백 가지 AI 관련 용어입니다.

최고 AI 학술 컨퍼런스에 대한 원스톱 추적:https://go.hyper.ai/event
위에 적힌 내용은 이번 주 편집자 추천 기사의 전체 내용입니다. hyper.ai 공식 웹사이트에 포함시키고 싶은 리소스가 있다면, 메시지를 남기거나 기사를 제출해 알려주세요!
다음주에 뵙겠습니다!
HyperAI 소개
HyperAI(hyper.ai)는 중국을 선도하는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다.우리는 중국 데이터 과학 분야의 인프라가 되고 국내 개발자들에게 풍부하고 고품질의 공공 리소스를 제공하기 위해 최선을 다하고 있습니다. 지금까지 우리는 다음과 같습니다.
* 1300개 이상의 공공 데이터 세트에 대한 국내 가속 다운로드 노드 제공
* 400개 이상의 고전적이고 인기 있는 온라인 튜토리얼 포함
* 100개 이상의 AI4Science 논문 사례 해석
* 500개 이상의 관련 용어 검색 지원
* 중국에서 최초의 완전한 Apache TVM 중국어 문서 호스팅
학습 여정을 시작하려면 공식 웹사이트를 방문하세요.