HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

BeSafe-Bench: 기능적 환경 내 Situated Agents의 행동 안전 리스크 규명

BeSafe-Bench: 기능적 환경 내 Situated Agents의 행동 안전 리스크 규명

Yuxuan Li, Yi Lin, Peng Wang, et al.

World Reasoning Arena

World Reasoning Arena

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA: 1억 토큰까지의 효율적 엔드투엔드 메모리 모델 확장을 위한 메모리 희소 어텐션

검색 증강 생성

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer: 대규모 이미지 편집 모델을 활용한 일반화 가능한 실세계 이미지 복원을 위한 연구

이미지 투 이미지

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

캘리브레이션: 매개변수 효율적 보정을 통한 Diffusion Transformer 향상

텍스트에서 이미지 생성

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro: Trillion Scale 과학적 멀티모달 기초 모델

사이언스를 위한 AI

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile: Toward Fine-Grained Facial Expression Editing

이미지 투 이미지

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini: Autoresearch를 통한 LLMs용 최첨단 Adversarial Attack 알고리즘 발견

사이언스를 위한 AI

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness: 코드 하네스(Code Harness)의 자동 합성을 통한 LLM Agents의 성능 향상

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA: 3D 가상 에이전트의 의사결정이 밀집된 POV 동기화 멀티비디오 이해를 위한 벤치마킹 프레임워크

비디오 이해

시각 질문 응답

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM 의 추론 능력을 (때때로) 저하시키는 이유는 무엇인가?

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager: 실패 경험을 통한 자기 진화형 GUI Agent 학습

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP: Trajectory-aware Evolutionary Search를 통한 LLM Agents에 대한 Red-Teaming

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 데모

비디오 이해

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

EVA: End-to-End Video Agent을 위한 효율적 강화학습

비디오 이해

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

Foveated Diffusion: 효율적인 공간 적응형 이미지 및 비디오 생성

이미지 인페인팅

Brian Chao, Lior Yariv, Howard Xiao, et al.

Ego2Web: Egocentric Video에 기반한 Web Agent 벤치마크

비디오 이해

Shoubin Yu, Lei Shu, Antoine Yang, et al.

정적 템플릿에서 동적 런타임 그래프로: LLM 에이전트 워크플로우 최적화에 대한 개요

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

SpecEyes: Speculative Perception 및 Planning을 통한 Agentic Multimodal LLMs 가속화

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

DA-Flow: Diffusion Models를 활용한 Degradation-Aware Optical Flow Estimation

비디오 처리

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

PEARL: Personalized Streaming Video Understanding Model

비디오 이해

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

WildWorld: 행동과 명시적 상태를 통한 생성형 ARPG 를 위한 동적 세계 모델링을 위한 대규모 데이터셋

비디오 생성

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Diffusion Decoding를 통한 역 렌더링으로서의 문서 OCR 재고찰

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL: 낮은 연산 비용으로 구현하는 고정밀 Agentic Post-Training

감독된 미세조정

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward 3D Gaussian Splatting을 위한 Feed-Forward 예측적 밀도 증가

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

다중모달 표현

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지

비디오 이해

시각 질문 응답

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향

비디오 생성

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

BeSafe-Bench: 기능적 환경 내 Situated Agents의 행동 안전 리스크 규명

BeSafe-Bench: 기능적 환경 내 Situated Agents의 행동 안전 리스크 규명

Yuxuan Li, Yi Lin, Peng Wang, et al.

World Reasoning Arena

World Reasoning Arena

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA: 1억 토큰까지의 효율적 엔드투엔드 메모리 모델 확장을 위한 메모리 희소 어텐션

검색 증강 생성

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer: 대규모 이미지 편집 모델을 활용한 일반화 가능한 실세계 이미지 복원을 위한 연구

이미지 투 이미지

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

캘리브레이션: 매개변수 효율적 보정을 통한 Diffusion Transformer 향상

텍스트에서 이미지 생성

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro: Trillion Scale 과학적 멀티모달 기초 모델

사이언스를 위한 AI

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile: Toward Fine-Grained Facial Expression Editing

이미지 투 이미지

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini: Autoresearch를 통한 LLMs용 최첨단 Adversarial Attack 알고리즘 발견

사이언스를 위한 AI

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness: 코드 하네스(Code Harness)의 자동 합성을 통한 LLM Agents의 성능 향상

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA: 3D 가상 에이전트의 의사결정이 밀집된 POV 동기화 멀티비디오 이해를 위한 벤치마킹 프레임워크

비디오 이해

시각 질문 응답

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM 의 추론 능력을 (때때로) 저하시키는 이유는 무엇인가?

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager: 실패 경험을 통한 자기 진화형 GUI Agent 학습

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP: Trajectory-aware Evolutionary Search를 통한 LLM Agents에 대한 Red-Teaming

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 데모

비디오 이해

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

EVA: End-to-End Video Agent을 위한 효율적 강화학습

비디오 이해

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

Foveated Diffusion: 효율적인 공간 적응형 이미지 및 비디오 생성

이미지 인페인팅

Brian Chao, Lior Yariv, Howard Xiao, et al.

Ego2Web: Egocentric Video에 기반한 Web Agent 벤치마크

비디오 이해

Shoubin Yu, Lei Shu, Antoine Yang, et al.

정적 템플릿에서 동적 런타임 그래프로: LLM 에이전트 워크플로우 최적화에 대한 개요

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

SpecEyes: Speculative Perception 및 Planning을 통한 Agentic Multimodal LLMs 가속화

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

DA-Flow: Diffusion Models를 활용한 Degradation-Aware Optical Flow Estimation

비디오 처리

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

PEARL: Personalized Streaming Video Understanding Model

비디오 이해

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

WildWorld: 행동과 명시적 상태를 통한 생성형 ARPG 를 위한 동적 세계 모델링을 위한 대규모 데이터셋

비디오 생성

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Diffusion Decoding를 통한 역 렌더링으로서의 문서 OCR 재고찰

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL: 낮은 연산 비용으로 구현하는 고정밀 Agentic Post-Training

감독된 미세조정

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward 3D Gaussian Splatting을 위한 Feed-Forward 예측적 밀도 증가

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

다중모달 표현

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지

비디오 이해

시각 질문 응답

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향

비디오 생성

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

MSA: 1억 토큰까지의 효율적 엔드투엔드 메모리 모델 확장을 위한 메모리 희소 어텐션

Voxtral TTS

RealRestorer: 대규모 이미지 편집 모델을 활용한 일반화 가능한 실세계 이미지 복원을 위한 연구

캘리브레이션: 매개변수 효율적 보정을 통한 Diffusion Transformer 향상

Intern-S1-Pro: Trillion Scale 과학적 멀티모달 기초 모델

PixelSmile: Toward Fine-Grained Facial Expression Editing

Claudini: Autoresearch를 통한 LLMs용 최첨단 Adversarial Attack 알고리즘 발견

AutoHarness: 코드 하네스(Code Harness)의 자동 합성을 통한 LLM Agents의 성능 향상

GameplayQA: 3D 가상 에이전트의 의사결정이 밀집된 POV 동기화 멀티비디오 이해를 위한 벤치마킹 프레임워크

LLM 의 추론 능력을 (때때로) 저하시키는 이유는 무엇인가?

UI-Voyager: 실패 경험을 통한 자기 진화형 GUI Agent 학습

T-MAP: Trajectory-aware Evolutionary Search를 통한 LLM Agents에 대한 Red-Teaming

CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 데모

EVA: End-to-End Video Agent을 위한 효율적 강화학습

Foveated Diffusion: 효율적인 공간 적응형 이미지 및 비디오 생성

Ego2Web: Egocentric Video에 기반한 Web Agent 벤치마크

정적 템플릿에서 동적 런타임 그래프로: LLM 에이전트 워크플로우 최적화에 대한 개요

SpecEyes: Speculative Perception 및 Planning을 통한 Agentic Multimodal LLMs 가속화

DA-Flow: Diffusion Models를 활용한 Degradation-Aware Optical Flow Estimation

PEARL: Personalized Streaming Video Understanding Model

WildWorld: 행동과 명시적 상태를 통한 생성형 ARPG 를 위한 동적 세계 모델링을 위한 대규모 데이터셋

MinerU-Diffusion: Diffusion Decoding를 통한 역 렌더링으로서의 문서 OCR 재고찰

PivotRL: 낮은 연산 비용으로 구현하는 고정밀 Agentic Post-Training

F4Splat: Feed-Forward 3D Gaussian Splatting을 위한 Feed-Forward 예측적 밀도 증가

SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지

LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전

단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처

Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향

PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상

MSA: 1억 토큰까지의 효율적 엔드투엔드 메모리 모델 확장을 위한 메모리 희소 어텐션

Voxtral TTS

RealRestorer: 대규모 이미지 편집 모델을 활용한 일반화 가능한 실세계 이미지 복원을 위한 연구

캘리브레이션: 매개변수 효율적 보정을 통한 Diffusion Transformer 향상

Intern-S1-Pro: Trillion Scale 과학적 멀티모달 기초 모델

PixelSmile: Toward Fine-Grained Facial Expression Editing

Claudini: Autoresearch를 통한 LLMs용 최첨단 Adversarial Attack 알고리즘 발견

AutoHarness: 코드 하네스(Code Harness)의 자동 합성을 통한 LLM Agents의 성능 향상

GameplayQA: 3D 가상 에이전트의 의사결정이 밀집된 POV 동기화 멀티비디오 이해를 위한 벤치마킹 프레임워크

LLM 의 추론 능력을 (때때로) 저하시키는 이유는 무엇인가?

UI-Voyager: 실패 경험을 통한 자기 진화형 GUI Agent 학습

T-MAP: Trajectory-aware Evolutionary Search를 통한 LLM Agents에 대한 Red-Teaming

CUA-Suite: 컴퓨터 사용 에이전트를 위한 대규모 인간 주석 비디오 데모

EVA: End-to-End Video Agent을 위한 효율적 강화학습

Foveated Diffusion: 효율적인 공간 적응형 이미지 및 비디오 생성

Ego2Web: Egocentric Video에 기반한 Web Agent 벤치마크

정적 템플릿에서 동적 런타임 그래프로: LLM 에이전트 워크플로우 최적화에 대한 개요

SpecEyes: Speculative Perception 및 Planning을 통한 Agentic Multimodal LLMs 가속화

DA-Flow: Diffusion Models를 활용한 Degradation-Aware Optical Flow Estimation

PEARL: Personalized Streaming Video Understanding Model

WildWorld: 행동과 명시적 상태를 통한 생성형 ARPG 를 위한 동적 세계 모델링을 위한 대규모 데이터셋

MinerU-Diffusion: Diffusion Decoding를 통한 역 렌더링으로서의 문서 OCR 재고찰

PivotRL: 낮은 연산 비용으로 구현하는 고정밀 Agentic Post-Training

F4Splat: Feed-Forward 3D Gaussian Splatting을 위한 Feed-Forward 예측적 밀도 증가

SpatialBoost: 언어 기반 추론을 통한 시각적 표현 향상

VideoDetective: 장편 영상 이해를 위한 외재적 쿼리와 내재적 관련성을 통한 단서 탐지

LongCat-Flash-Prover: Agentic Tool-Integrated Reinforcement Learning를 통한 Native Formal Reasoning의 발전

단순성에 의한 속도: 빠른 오디오-비디오 생성 기반 모델을 위한 단일 스트림 아키텍처

Omni-WorldBench: 세계 모델에 대한 포괄적인 상호작용 중심 평가 지향

PrismAudio: 비디오-오디오 생성을 위한 분해된 연쇄 사고와 다차원 보상