HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HSImul3R:シミュレーション対応型人間・シーン相互作用の物理ループ内再構成
3D生成
3D マシンビジョン
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
Mixture-of-Depths Attention
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
アテンション残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
現実の大都市における世界シミュレーションモデルのグラウンディング
画像から動画生成
動画生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現
LLM
エージェント
Yuwen Du, Rui Ye, Shuo Tang, et al.
AI Can Learn Scientific Taste
Preference Modeling
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク
マルチモーダル
視覚質問応答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
ビジョン・ランゲージモデルはシェルゲームを解決できるか?
オブジェクト追跡
ビデオ理解
Tiedong Liu, Wee Sun Lee
OmniForcing:リアルタイムな音視覚生成の潜在能力を解放する
マルチモーダル
拡散モデル
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大規模スケーラブルなオープン SWE 環境合成
コード生成
エージェント
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現
マルチモーダル
Any-to-Any
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:Long-horizon Memory Embedding Benchmark
ベンチマーク
検索拡張生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ
テキストから動画
動画生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展
テキストから動画
動画生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
コンピュータ使用エージェントのためのビデオベース報酬モデリング
ビデオ理解
マルチモーダル
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
戦略的ナビゲーションか、確率的探索か?エージェントと人間がドキュメントコレクションに対してどのように推論するか
インテリジェントな質問応答
エージェント
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能
ビデオ理解
ビデオ処理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大規模言語モデルは追随できるか?継続的知識ストリームへのオンライン適応のベンチマーク評価
LLM
ベンチマーク
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微調整における LoRA 混合物のための強化学習ルーティング
監視付き微調整
モデル学習
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習
LLM
強化学習
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答
視覚質問応答
ビデオ理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:高速かつメモリ効率に優れた厳密 K-Means
ディープラーニング
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
OpenClaw-RL: 対話のみによる任意の Agent の訓練
強化学習
エージェント
Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.
法廷へ VLM を招く:スポーツにおける空間知能のベンチマーク評価
視覚質問応答
マルチモーダル
Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.
InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化
マルチモーダル
Any-to-Any
Changyao Tian, Danni Yang, Guanzhou Chen, et al.
MM-Zero:ゼロデータからの自己進化型マルチモデル視覚言語モデル
マルチモーダル
視覚質問応答
Zongxia Li, Hongyang Du, Chengsong Huang, et al.
思考による想起:LLM における推論がパラメトリック知識を解き放つ仕組み
LLM
Reasoning
Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.
Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成
拡散モデル
Any-to-Any
Lijiang Li, Zuwei Long, Yunhang Shen, et al.
幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集
3D生成
拡散モデル
Jiyuan Wang, Chunyu Lin, Lei Sun, et al.
CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択
拡散モデル
マルチモーダル
Yucheng Wang, Zedong Wang, Yuetong Wu, et al.
モデルを信頼せよ:分布誘導型信頼度較正
Reasoning
LLM
Xizhong Yang, Haotian Zhang, Huiming Wang, et al.
1
2
3
4
5
6
7
57
HSImul3R:シミュレーション対応型人間・シーン相互作用の物理ループ内再構成
3D生成
3D マシンビジョン
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
Mixture-of-Depths Attention
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
アテンション残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
現実の大都市における世界シミュレーションモデルのグラウンディング
画像から動画生成
動画生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現
LLM
エージェント
Yuwen Du, Rui Ye, Shuo Tang, et al.
AI Can Learn Scientific Taste
Preference Modeling
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク
マルチモーダル
視覚質問応答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
ビジョン・ランゲージモデルはシェルゲームを解決できるか?
オブジェクト追跡
ビデオ理解
Tiedong Liu, Wee Sun Lee
OmniForcing:リアルタイムな音視覚生成の潜在能力を解放する
マルチモーダル
拡散モデル
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大規模スケーラブルなオープン SWE 環境合成
コード生成
エージェント
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現
マルチモーダル
Any-to-Any
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:Long-horizon Memory Embedding Benchmark
ベンチマーク
検索拡張生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ
テキストから動画
動画生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展
テキストから動画
動画生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
コンピュータ使用エージェントのためのビデオベース報酬モデリング
ビデオ理解
マルチモーダル
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
戦略的ナビゲーションか、確率的探索か?エージェントと人間がドキュメントコレクションに対してどのように推論するか
インテリジェントな質問応答
エージェント
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能
ビデオ理解
ビデオ処理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大規模言語モデルは追随できるか?継続的知識ストリームへのオンライン適応のベンチマーク評価
LLM
ベンチマーク
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微調整における LoRA 混合物のための強化学習ルーティング
監視付き微調整
モデル学習
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習
LLM
強化学習
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答
視覚質問応答
ビデオ理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:高速かつメモリ効率に優れた厳密 K-Means
ディープラーニング
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
OpenClaw-RL: 対話のみによる任意の Agent の訓練
強化学習
エージェント
Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.
法廷へ VLM を招く:スポーツにおける空間知能のベンチマーク評価
視覚質問応答
マルチモーダル
Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.
InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化
マルチモーダル
Any-to-Any
Changyao Tian, Danni Yang, Guanzhou Chen, et al.
MM-Zero:ゼロデータからの自己進化型マルチモデル視覚言語モデル
マルチモーダル
視覚質問応答
Zongxia Li, Hongyang Du, Chengsong Huang, et al.
思考による想起:LLM における推論がパラメトリック知識を解き放つ仕組み
LLM
Reasoning
Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.
Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成
拡散モデル
Any-to-Any
Lijiang Li, Zuwei Long, Yunhang Shen, et al.
幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集
3D生成
拡散モデル
Jiyuan Wang, Chunyu Lin, Lei Sun, et al.
CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択
拡散モデル
マルチモーダル
Yucheng Wang, Zedong Wang, Yuetong Wu, et al.
モデルを信頼せよ:分布誘導型信頼度較正
Reasoning
LLM
Xizhong Yang, Haotian Zhang, Huiming Wang, et al.
1
2
3
4
5
6
7
57