HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론

롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론

시각 질문 응답

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화

GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화

Jiacheng Guo, Ling Yang, Peter Chen, et al.

월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책

신체적 지능

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성

검색 증강 생성

지능형 질문 응답

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화

다중모달 표현

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋

텍스트에서 이미지 생성

Zhihui Chen, Mengling Feng

Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델

GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출

Rang Li, Lei Li, Shuhuai Ren, et al.

의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기

텍스트에서 이미지 생성

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해

시각 질문 응답

다중모달 표현

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

이론이 그 법칙과 만날 때

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2: 360-오픈, 추론 강화형 LLM

감독된 미세조정

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

인간-컴퓨터 상호작용

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

컴퓨터 비전

비디오 이해

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

자연어 처리

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

텍스트에서 비디오

이미지에서 비디오 생성

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

텍스트에서 이미지 생성

Kaixin Ding, Yang Zhou, Xi Chen, et al.

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

3D 머신 비전

Xin Lin, Meixi Song, Dizhe Zhang, et al.

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

이미지 투 이미지

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

비디오 처리

이미지 투 이미지

Guibao Shen, Yihua Du, Wenhang Ge, et al.

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

컴퓨터 비전

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

에이전트 AI: 다중모달 상호작용의 지평 탐색

신체적 지능

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

텍스트에서 이미지 생성

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론

롱비디오에이전트: 긴 영상에서의 다중 에이전트 추론

시각 질문 응답

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화

GenEnv: LLM 에이전트와 환경 시뮬레이터 간의 난이도 일치형 공진화

Jiacheng Guo, Ling Yang, Peter Chen, et al.

월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책

신체적 지능

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성

검색 증강 생성

지능형 질문 응답

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화

다중모달 표현

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋

텍스트에서 이미지 생성

Zhihui Chen, Mengling Feng

Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델

GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출

Rang Li, Lei Li, Shuhuai Ren, et al.

의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기

텍스트에서 이미지 생성

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해

시각 질문 응답

다중모달 표현

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

이론이 그 법칙과 만날 때

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2: 360-오픈, 추론 강화형 LLM

감독된 미세조정

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

인간-컴퓨터 상호작용

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

컴퓨터 비전

비디오 이해

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

자연어 처리

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

텍스트에서 비디오

이미지에서 비디오 생성

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

텍스트에서 이미지 생성

Kaixin Ding, Yang Zhou, Xi Chen, et al.

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

3D 머신 비전

Xin Lin, Meixi Song, Dizhe Zhang, et al.

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

이미지 투 이미지

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

비디오 처리

이미지 투 이미지

Guibao Shen, Yihua Du, Wenhang Ge, et al.

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

컴퓨터 비전

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

에이전트 AI: 다중모달 상호작용의 지평 탐색

신체적 지능

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

텍스트에서 이미지 생성

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파

LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책

LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측

QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성

프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화

Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋

Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법

GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델

GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출

의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기

4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해

시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득

이론이 그 법칙과 만날 때

LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여

K2-V2: 360-오픈, 추론 강화형 LLM

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

월드워프: 비동기 영상 디퓨전을 통한 3D 기하학의 전파

LoGoPlanner: 메트릭 인지 시각 기하를 기반으로 한 위치 인식 기반 내비게이션 정책

LLM은 학습자 곤란을 추정할 수 있는가? 전문성 시뮬레이션을 통한 인간-AI 어려움 일치를 통한 항목 어려움 예측

QuCo-RAG: 사전 훈련 코퍼스로부터의 불확실성 정량화를 통한 동적 검색 증강 생성

프리즘 가설: 통합 오토인코딩을 통한 의미 표현과 픽셀 표현의 조화

Med-Banana-50K: 텍스트 유도 의료 영상 편집을 위한 크로스모달리티 대규모 데이터셋

Kascade: 긴 컨텍스트 LLM 추론을 위한 실용적인 희소 어텐션 방법

GLM-4.5: 에이전트, 추론 및 코딩(ARC) 기반 모델

GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출

의미론과 재구성 모두 중요하다: 텍스트-to-이미지 생성 및 편집을 위한 표현 인코더 준비하기

4D-RGPT: 지각 증류를 통한 영역 수준의 4차원 이해로 향해

시드-프로버 1.5: 경험 학습을 통한 대학 수준 정리 증명 능력 습득

이론이 그 법칙과 만날 때

LLM의 과학적 일반지능 탐구: 과학자 중심 워크플로우를 활용하여

K2-V2: 360-오픈, 추론 강화형 LLM

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석