HyperAI

메인 페이지

GPU

콘솔
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

메인 페이지

GPU

콘솔
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

K2-V2: 360-오픈, 추론 강화형 LLM

K2-V2: 360-오픈, 추론 강화형 LLM

감독된 미세조정

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

인간-컴퓨터 상호작용

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

컴퓨터 비전

비디오 이해

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

자연어 처리

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

텍스트에서 비디오

이미지에서 비디오 생성

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

텍스트에서 이미지 생성

Kaixin Ding, Yang Zhou, Xi Chen, et al.

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

3D 머신 비전

Xin Lin, Meixi Song, Dizhe Zhang, et al.

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

이미지 투 이미지

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

비디오 처리

이미지 투 이미지

Guibao Shen, Yihua Du, Wenhang Ge, et al.

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

컴퓨터 비전

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

에이전트 AI: 다중모달 상호작용의 지평 탐색

신체적 지능

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

텍스트에서 이미지 생성

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

메타-RL은 언어 에이전트의 탐색을 유도한다

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략

Harsh Vardhan Bansal

오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다

비디오 이해

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가

비디오 이해

시각 질문 응답

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기

이미지에서 비디오 생성

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상

시각 질문 응답

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 기술 보고서

Chao Yi, Dian Chen, Gaoyang Guo, et al.

벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법

이미지 세그멘테이션

텍스트에서 비디오

Jooyeol Yun, Jaegul Choo

OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나

Mengzhang Cai, Xin Gao, Yu Li, et al.

비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?

비디오 처리

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달

비디오 생성

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR: 다중모달 생성적 추론

비디오 생성

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크

검색 증강 생성

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 기술 보고서

텍스트에서 비디오

비디오 생성

Kling Team, Jialu Chen, Yikang Ding, et al.

K2-V2: 360-오픈, 추론 강화형 LLM

K2-V2: 360-오픈, 추론 강화형 LLM

감독된 미세조정

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

VenusBench-GD: 다양한 그라운딩 작업을 위한 종합적인 다중 플랫폼 GUI 벤치마크

인간-컴퓨터 상호작용

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

컴퓨터 비전

비디오 이해

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

자연어 처리

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

텍스트에서 비디오

이미지에서 비디오 생성

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

텍스트에서 이미지 생성

Kaixin Ding, Yang Zhou, Xi Chen, et al.

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

3D 머신 비전

Xin Lin, Meixi Song, Dizhe Zhang, et al.

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

이미지 투 이미지

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

비디오 처리

이미지 투 이미지

Guibao Shen, Yihua Du, Wenhang Ge, et al.

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

컴퓨터 비전

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

에이전트 AI: 다중모달 상호작용의 지평 탐색

신체적 지능

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

텍스트에서 이미지 생성

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

메타-RL은 언어 에이전트의 탐색을 유도한다

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략

Harsh Vardhan Bansal

오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다

비디오 이해

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가

비디오 이해

시각 질문 응답

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기

이미지에서 비디오 생성

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상

시각 질문 응답

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 기술 보고서

Chao Yi, Dian Chen, Gaoyang Guo, et al.

벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법

이미지 세그멘테이션

텍스트에서 비디오

Jooyeol Yun, Jaegul Choo

OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나

Mengzhang Cai, Xin Gao, Yu Li, et al.

비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?

비디오 처리

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달

비디오 생성

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR: 다중모달 생성적 추론

비디오 생성

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크

검색 증강 생성

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 기술 보고서

텍스트에서 비디오

비디오 생성

Kling Team, Jialu Chen, Yikang Ding, et al.

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

메타-RL은 언어 에이전트의 탐색을 유도한다

LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략

오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다

VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가

소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기

IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상

RecGPT-V2 기술 보고서

벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법

OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나

비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?

WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달

MMGR: 다중모달 생성적 추론

프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크

Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장

KlingAvatar 2.0 기술 보고서

MCIF: 과학 강연에서 도출된 다모달 교차언어 지시사항 따르기 벤치마크

NitroGen: 일반 기반 게이밍 에이전트를 위한 오픈 기반 모델

H-뉴런: 대화형 뉴런의 존재, 영향력 및 기원에 관하여 LLMs 내에서 환각과 관련된 뉴런에 대해

세상은 당신의 캔버스다: 참조 이미지, 궤적 및 텍스트로 프롬프트 가능한 이벤트를 그린다

알키미스트: 메타그래디언트 데이터 선택을 통한 텍스트-이미지 모델 훈련의 효율성 극대화

깊이 임의 전경: 전경 깊이 추정을 위한 기반 모델

생성형 초점 조정: 단일 이미지에서의 유연한 심도 조절

StereoPilot: 생성 전처리를 통한 통합적이고 효율적인 스테레오 변환 학습

다음 임베딩 예측은 강력한 비전 학습자들을 만든다

에이전트 AI: 다중모달 상호작용의 지평 탐색

인공지능 수학자: 수학적 발견을 촉진하는 파트너로서의 역할 — 동차화 이론에 대한 사례 연구

GenEval 2: 텍스트-이미지 평가에서 벤치마크 드리프트 해결

PrivateXR: 설명 가능한 AI 지도형 차분 비밀유지 기법을 통한 확장현실 환경에서의 프라이버시 공격 방어

시간적 마찰과 사법적 결과: 쿠크 카운티(2020–2024)에서 시간 지연이 형량 결정에 미치는 영향 분석

메타-RL은 언어 에이전트의 탐색을 유도한다

LLMCache: Transformer 추론에서 재사용을 가속화하기 위한 계층별 캐싱 전략

오픈터치: 실제 세계 상호작용에 전손 촉각을 도입하다

VideoRewardBench: 비디오 이해를 위한 다중모달 보상 모델의 종합적 평가

소울: 고해상도 장기 다중모달 애니메이션을 위한 디지털 인간에 생명을 불어넣기

IF-Bench: 생성형 시각 정보를 활용한 적외선 이미지용 MLLMs의 벤치마킹 및 성능 향상

RecGPT-V2 기술 보고서

벡터 프리즘: 의미 구조를 계층화함으로써 벡터 그래픽을 애니메이션하는 기법

OpenDataArena: 사후 훈련 데이터셋 가치 평가를 위한 공정하고 개방적인 아레나

비디오 리얼리티 테스트: AI 생성 ASMR 영상은 VLM과 인간을 속일 수 있는가?

WorldPlay: 실시간 상호작용 세계 모델링을 위한 장기적 기하학적 일관성 도달

MMGR: 다중모달 생성적 추론

프론티어 사이언스: 인공지능의 전문가 수준 과학 작업 수행 능력 평가

FACTS 리더보드: 대규모 언어 모델의 사실성에 대한 종합적 벤치마크

Nemotron-Cascade: 일반 목적 추론 모델을 위한 계단식 강화 학습의 확장

KlingAvatar 2.0 기술 보고서