HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

메인 페이지

GPU

콘솔
Studio
문서
가격

Pulse

뉴스

리소스

논문
노트북
데이터 세트
위키

벤치마크

SOTA
LLM 모델
GPU 리더보드

커뮤니티

이벤트

유틸리티

정보 서비스 이용약관 개인정보 처리방침
한국어

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

최신 AI 트렌드를 파악할 수 있도록 매일 업데이트되는 최첨단 AI 연구 논문

인공지능의 미래를 구축하세요

정보

회사 소개 지원 데이터 세트 도움말

제품

뉴스 논문 노트북 데이터 세트 위키

링크

© HyperAI

GitHub Discord X (formerly Twitter)

재귀적 다중 에이전트 시스템

재귀적 다중 에이전트 시스템

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

스킬 검색 증강을 위한 에이전틱 AI

스킬 검색 증강을 위한 에이전틱 AI

검색 증강 생성

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: 비전-언어 모델은 생각을 설명하고 사용자를 안내하기 위해 이미지를 주석 처리할 수 있습니다.

시각 질문 응답

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: Retrieval-Augmented Best-of-N Ranking을 통해 구축된 원격 감지 지역 변화 이해 벤치마크

시각 질문 응답

검색 증강 생성

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: 장기 오디오의 필기, 번역 및 이해를 위한 확장 가능한 벤치마크

음성 및 음성 처리

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: 다중 턴, 다중 일일, 다중 모달 coworker agents를 위한 라이브 월드 벤치마크

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel Embeddings가 Multimodal 이해 및 생성을 위해 Vision Encoders를 능가하다

이미지 생성

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

비전-라이트-액션 안전: 위협, 과제, 평가 및 메커니즘

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: VLM 3D 추론에 대한 정확한 평가를 위한 시각적 공간 지능 평가 재구축

시각 질문 응답

비디오 이해

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

스킬에서 인재로: 현실의 기업으로서 이질적인 에이전트들을 조직하기

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: 텍스트-비디오 생성을 위한 3D 제약 조건 강화

텍스트에서 비디오

비디오 생성

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Semantic Progress Function을 통한 비디오 분석 및 생성

비디오 생성

비디오 처리

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: 자동 사진 이미지 편집을 위한 통합적 추론, 생성 및 최적화

이미지 투 이미지

이미지 이해

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

문맥은 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조적 추론

지능형 질문 응답

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: 야생 환경에서의 AI agent 검색을 위한 벤치마크

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Inversion-free 비디오 편집을 위한 편집 신호 안정화

Ze Chen, Lan Chen, Yuanhang Li, et al.

내부 표현을 통한 LLM 안전성 확보: 유해 콘텐츠 탐지

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Sparse-View 3D Tomographic Reconstruction을 위한 Diffusion-Enhanced Neural Representation Optimization

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

사이언스를 위한 AI

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Resilient Distributed Pre-training을 위한 Decoupled DiLoCo

Decoupled DiLoCo Team

EVENT TENSOR: DYNAMIC MEGAKERNEL 컴파일을 위한 통합 추상화 모델

AI 컴파일러

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

빠름과 느림을 보다: 비디오 내 시간의 흐름 학습 (Seeing Fast and Slow: Learning the Flow of Time in Videos)

비디오 생성

비디오 이해

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Long-Horizon Tasks를 위한 LLM 의사결정 및 Skill Bank agents의 공동 진화(Co-Evolving)

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: Stylization-Agnostic Facial Identity Recognition을 위한 인지 기반 데이터셋 및 메트릭

이미지 인식

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: 인간-휴머노이드 정책 학습 및 월드 모델링을 위한 통합 물리 언어를 향하여

다중모달 표현

비디오 생성

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

이미지에서 비디오 생성

비디오 생성

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: 시각적 인지에서 의미론에 이르는 난이도 계층화 시계열 추론을 향하여

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

이미지 생성기(Image Generators)는 범용 시각 학습기(Generalist Vision Learners)이다.

이미지 생성

이미지 이해

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Modality를 이산적 Token으로 어휘화하기

다중모달 표현

Meituan LongCat Team

FIPO: Future-KL 영향을 받는 정책 최적화를 통한 심층 추론 유도

Qwen Pilot Team

강화 학습에서 그룹 수준의 자연어 피드백을 활용한 부트스트래핑 탐색 (Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning)

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Omni Models의 오디오-비주얼 사회적 상호작용(Audio-Visual Social Interactivity) 벤치마킹

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

재귀적 다중 에이전트 시스템

재귀적 다중 에이전트 시스템

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

스킬 검색 증강을 위한 에이전틱 AI

스킬 검색 증강을 위한 에이전틱 AI

검색 증강 생성

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM: 비전-언어 모델은 생각을 설명하고 사용자를 안내하기 위해 이미지를 주석 처리할 수 있습니다.

시각 질문 응답

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: Retrieval-Augmented Best-of-N Ranking을 통해 구축된 원격 감지 지역 변화 이해 벤치마크

시각 질문 응답

검색 증강 생성

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: 장기 오디오의 필기, 번역 및 이해를 위한 확장 가능한 벤치마크

음성 및 음성 처리

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: 다중 턴, 다중 일일, 다중 모달 coworker agents를 위한 라이브 월드 벤치마크

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: Pixel Embeddings가 Multimodal 이해 및 생성을 위해 Vision Encoders를 능가하다

이미지 생성

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

비전-라이트-액션 안전: 위협, 과제, 평가 및 메커니즘

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI: VLM 3D 추론에 대한 정확한 평가를 위한 시각적 공간 지능 평가 재구축

시각 질문 응답

비디오 이해

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

스킬에서 인재로: 현실의 기업으로서 이질적인 에이전트들을 조직하기

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: 텍스트-비디오 생성을 위한 3D 제약 조건 강화

텍스트에서 비디오

비디오 생성

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

Semantic Progress Function을 통한 비디오 분석 및 생성

비디오 생성

비디오 처리

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: 자동 사진 이미지 편집을 위한 통합적 추론, 생성 및 최적화

이미지 투 이미지

이미지 이해

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

문맥은 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조적 추론

지능형 질문 응답

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: 야생 환경에서의 AI agent 검색을 위한 벤치마크

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Inversion-free 비디오 편집을 위한 편집 신호 안정화

Ze Chen, Lan Chen, Yuanhang Li, et al.

내부 표현을 통한 LLM 안전성 확보: 유해 콘텐츠 탐지

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Sparse-View 3D Tomographic Reconstruction을 위한 Diffusion-Enhanced Neural Representation Optimization

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

사이언스를 위한 AI

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Resilient Distributed Pre-training을 위한 Decoupled DiLoCo

Decoupled DiLoCo Team

EVENT TENSOR: DYNAMIC MEGAKERNEL 컴파일을 위한 통합 추상화 모델

AI 컴파일러

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

빠름과 느림을 보다: 비디오 내 시간의 흐름 학습 (Seeing Fast and Slow: Learning the Flow of Time in Videos)

비디오 생성

비디오 이해

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Long-Horizon Tasks를 위한 LLM 의사결정 및 Skill Bank agents의 공동 진화(Co-Evolving)

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: Stylization-Agnostic Facial Identity Recognition을 위한 인지 기반 데이터셋 및 메트릭

이미지 인식

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: 인간-휴머노이드 정책 학습 및 월드 모델링을 위한 통합 물리 언어를 향하여

다중모달 표현

비디오 생성

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

이미지에서 비디오 생성

비디오 생성

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: 시각적 인지에서 의미론에 이르는 난이도 계층화 시계열 추론을 향하여

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

이미지 생성기(Image Generators)는 범용 시각 학습기(Generalist Vision Learners)이다.

이미지 생성

이미지 이해

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Modality를 이산적 Token으로 어휘화하기

다중모달 표현

Meituan LongCat Team

FIPO: Future-KL 영향을 받는 정책 최적화를 통한 심층 추론 유도

Qwen Pilot Team

강화 학습에서 그룹 수준의 자연어 피드백을 활용한 부트스트래핑 탐색 (Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning)

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Omni Models의 오디오-비주얼 사회적 상호작용(Audio-Visual Social Interactivity) 벤치마킹

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

SketchVLM: 비전-언어 모델은 생각을 설명하고 사용자를 안내하기 위해 이미지를 주석 처리할 수 있습니다.

RSRCC: Retrieval-Augmented Best-of-N Ranking을 통해 구축된 원격 감지 지역 변화 이해 벤치마크

LongSpeech: 장기 오디오의 필기, 번역 및 이해를 위한 확장 가능한 벤치마크

ClawMark: 다중 턴, 다중 일일, 다중 모달 coworker agents를 위한 라이브 월드 벤치마크

Tuna-2: Pixel Embeddings가 Multimodal 이해 및 생성을 위해 Vision Encoders를 능가하다

비전-라이트-액션 안전: 위협, 과제, 평가 및 메커니즘

ReVSI: VLM 3D 추론에 대한 정확한 평가를 위한 시각적 공간 지능 평가 재구축

스킬에서 인재로: 현실의 기업으로서 이질적인 에이전트들을 조직하기

World-R1: 텍스트-비디오 생성을 위한 3D 제약 조건 강화

Semantic Progress Function을 통한 비디오 분석 및 생성

SmartPhotoCrafter: 자동 사진 이미지 편집을 위한 통합적 추론, 생성 및 최적화

문맥은 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조적 추론

AgentSearchBench: 야생 환경에서의 AI agent 검색을 위한 벤치마크

FlowAnchor: Inversion-free 비디오 편집을 위한 편집 신호 안정화

내부 표현을 통한 LLM 안전성 확보: 유해 콘텐츠 탐지

DiffNR: Sparse-View 3D Tomographic Reconstruction을 위한 Diffusion-Enhanced Neural Representation Optimization

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Resilient Distributed Pre-training을 위한 Decoupled DiLoCo

EVENT TENSOR: DYNAMIC MEGAKERNEL 컴파일을 위한 통합 추상화 모델

빠름과 느림을 보다: 비디오 내 시간의 흐름 학습 (Seeing Fast and Slow: Learning the Flow of Time in Videos)

Long-Horizon Tasks를 위한 LLM 의사결정 및 Skill Bank agents의 공동 진화(Co-Evolving)

StyleID: Stylization-Agnostic Facial Identity Recognition을 위한 인지 기반 데이터셋 및 메트릭

UniT: 인간-휴머노이드 정책 학습 및 월드 모델링을 위한 통합 물리 언어를 향하여

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

LLaTiSA: 시각적 인지에서 의미론에 이르는 난이도 계층화 시계열 추론을 향하여

이미지 생성기(Image Generators)는 범용 시각 학습기(Generalist Vision Learners)이다.

LongCat-Next: Modality를 이산적 Token으로 어휘화하기

FIPO: Future-KL 영향을 받는 정책 최적화를 통한 심층 추론 유도

강화 학습에서 그룹 수준의 자연어 피드백을 활용한 부트스트래핑 탐색 (Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning)

SocialOmni: Omni Models의 오디오-비주얼 사회적 상호작용(Audio-Visual Social Interactivity) 벤치마킹

SketchVLM: 비전-언어 모델은 생각을 설명하고 사용자를 안내하기 위해 이미지를 주석 처리할 수 있습니다.

RSRCC: Retrieval-Augmented Best-of-N Ranking을 통해 구축된 원격 감지 지역 변화 이해 벤치마크

LongSpeech: 장기 오디오의 필기, 번역 및 이해를 위한 확장 가능한 벤치마크

ClawMark: 다중 턴, 다중 일일, 다중 모달 coworker agents를 위한 라이브 월드 벤치마크

Tuna-2: Pixel Embeddings가 Multimodal 이해 및 생성을 위해 Vision Encoders를 능가하다

비전-라이트-액션 안전: 위협, 과제, 평가 및 메커니즘

ReVSI: VLM 3D 추론에 대한 정확한 평가를 위한 시각적 공간 지능 평가 재구축

스킬에서 인재로: 현실의 기업으로서 이질적인 에이전트들을 조직하기

World-R1: 텍스트-비디오 생성을 위한 3D 제약 조건 강화

Semantic Progress Function을 통한 비디오 분석 및 생성

SmartPhotoCrafter: 자동 사진 이미지 편집을 위한 통합적 추론, 생성 및 최적화

문맥은 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조적 추론

AgentSearchBench: 야생 환경에서의 AI agent 검색을 위한 벤치마크

FlowAnchor: Inversion-free 비디오 편집을 위한 편집 신호 안정화

내부 표현을 통한 LLM 안전성 확보: 유해 콘텐츠 탐지

DiffNR: Sparse-View 3D Tomographic Reconstruction을 위한 Diffusion-Enhanced Neural Representation Optimization

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Resilient Distributed Pre-training을 위한 Decoupled DiLoCo

EVENT TENSOR: DYNAMIC MEGAKERNEL 컴파일을 위한 통합 추상화 모델

빠름과 느림을 보다: 비디오 내 시간의 흐름 학습 (Seeing Fast and Slow: Learning the Flow of Time in Videos)

Long-Horizon Tasks를 위한 LLM 의사결정 및 Skill Bank agents의 공동 진화(Co-Evolving)

StyleID: Stylization-Agnostic Facial Identity Recognition을 위한 인지 기반 데이터셋 및 메트릭

UniT: 인간-휴머노이드 정책 학습 및 월드 모델링을 위한 통합 물리 언어를 향하여

WorldMark: 상호작용형 비디오 월드 모델을 위한 통합 벤치마크 스위트

LLaTiSA: 시각적 인지에서 의미론에 이르는 난이도 계층화 시계열 추론을 향하여

이미지 생성기(Image Generators)는 범용 시각 학습기(Generalist Vision Learners)이다.

LongCat-Next: Modality를 이산적 Token으로 어휘화하기

FIPO: Future-KL 영향을 받는 정책 최적화를 통한 심층 추론 유도

강화 학습에서 그룹 수준의 자연어 피드백을 활용한 부트스트래핑 탐색 (Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning)

SocialOmni: Omni Models의 오디오-비주얼 사회적 상호작용(Audio-Visual Social Interactivity) 벤치마킹