HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
Video-CoE:イベント連鎖による動画事象予測の強化
ビデオ理解
マルチモーダル
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:多様な映画シーンにおけるゼロショット映画吹き替えのための統合データセットツールキットおよびモデル
Text-to-Speech
マルチモーダル
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大規模言語モデルにおける文脈内透かし
LLM
テキスト生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド
拡散モデル
動画生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
動画推論の解明
動画生成
拡散モデル
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:時空間具象シミュレーションのための運動学的 4D 世界モデルリング
エムボディドインテリジェンス
動画生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル
ドキュメント理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
InCoder-32B:産業シナリオ向けコード基盤モデル
コード生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて
エージェント
Reasoning
MiroMind Team, S. Bai, L. Bing, et al.
HSImul3R:シミュレーション対応型人間・シーン相互作用の物理ループ内再構成
3D生成
3D マシンビジョン
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
Mixture-of-Depths Attention
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
アテンション残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
現実の大都市における世界シミュレーションモデルのグラウンディング
画像から動画生成
動画生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現
LLM
エージェント
Yuwen Du, Rui Ye, Shuo Tang, et al.
AI Can Learn Scientific Taste
Preference Modeling
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク
マルチモーダル
視覚質問応答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
ビジョン・ランゲージモデルはシェルゲームを解決できるか?
オブジェクト追跡
ビデオ理解
Tiedong Liu, Wee Sun Lee
OmniForcing:リアルタイムな音視覚生成の潜在能力を解放する
マルチモーダル
拡散モデル
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大規模スケーラブルなオープン SWE 環境合成
コード生成
エージェント
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現
マルチモーダル
Any-to-Any
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:Long-horizon Memory Embedding Benchmark
ベンチマーク
検索拡張生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ
テキストから動画
動画生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展
テキストから動画
動画生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
コンピュータ使用エージェントのためのビデオベース報酬モデリング
ビデオ理解
マルチモーダル
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
戦略的ナビゲーションか、確率的探索か?エージェントと人間がドキュメントコレクションに対してどのように推論するか
インテリジェントな質問応答
エージェント
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能
ビデオ理解
ビデオ処理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大規模言語モデルは追随できるか?継続的知識ストリームへのオンライン適応のベンチマーク評価
LLM
ベンチマーク
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微調整における LoRA 混合物のための強化学習ルーティング
監視付き微調整
モデル学習
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習
LLM
強化学習
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答
視覚質問応答
ビデオ理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:高速かつメモリ効率に優れた厳密 K-Means
ディープラーニング
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
1
2
3
4
5
6
7
57
Video-CoE:イベント連鎖による動画事象予測の強化
ビデオ理解
マルチモーダル
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:多様な映画シーンにおけるゼロショット映画吹き替えのための統合データセットツールキットおよびモデル
Text-to-Speech
マルチモーダル
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大規模言語モデルにおける文脈内透かし
LLM
テキスト生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド
拡散モデル
動画生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
動画推論の解明
動画生成
拡散モデル
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:時空間具象シミュレーションのための運動学的 4D 世界モデルリング
エムボディドインテリジェンス
動画生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル
ドキュメント理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
InCoder-32B:産業シナリオ向けコード基盤モデル
コード生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて
エージェント
Reasoning
MiroMind Team, S. Bai, L. Bing, et al.
HSImul3R:シミュレーション対応型人間・シーン相互作用の物理ループ内再構成
3D生成
3D マシンビジョン
Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.
Mixture-of-Depths Attention
LLM
Transformer
Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.
アテンション残差
LLM
Transformer
Kimi Team, Guangyu Chen, Yu Zhang, et al.
現実の大都市における世界シミュレーションモデルのグラウンディング
画像から動画生成
動画生成
Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.
OpenSeeker:トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現
LLM
エージェント
Yuwen Du, Rui Ye, Shuo Tang, et al.
AI Can Learn Scientific Taste
Preference Modeling
LLM
Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.
MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク
マルチモーダル
視覚質問応答
Haozhan Shen, Shilin Yan, Hongwei Xue, et al.
ビジョン・ランゲージモデルはシェルゲームを解決できるか?
オブジェクト追跡
ビデオ理解
Tiedong Liu, Wee Sun Lee
OmniForcing:リアルタイムな音視覚生成の潜在能力を解放する
マルチモーダル
拡散モデル
Yaofeng Su, Yuming Li, Zeyue Xue, et al.
daVinci-Env:大規模スケーラブルなオープン SWE 環境合成
コード生成
エージェント
Dayuan Fu, Shenyu Wu, Yunze Wu, et al.
Cheers:パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現
マルチモーダル
Any-to-Any
Yichen Zhang, Da Peng, Zonghao Guo, et al.
LMEB:Long-horizon Memory Embedding Benchmark
ベンチマーク
検索拡張生成
Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.
DreamVideo-Omni:潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ
テキストから動画
動画生成
Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.
ShotVerse:テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展
テキストから動画
動画生成
Songlin Yang, Zhe Wang, Xuyi Yang, et al.
コンピュータ使用エージェントのためのビデオベース報酬モデリング
ビデオ理解
マルチモーダル
Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.
IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化
Transformer
LLM
Yushi Bai, Qian Dong, Ting Jiang, et al.
戦略的ナビゲーションか、確率的探索か?エージェントと人間がドキュメントコレクションに対してどのように推論するか
インテリジェントな質問応答
エージェント
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.
Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能
ビデオ理解
ビデオ処理
Fangfu Liu, Diankun Wu, Jiawei Chi, et al.
大規模言語モデルは追随できるか?継続的知識ストリームへのオンライン適応のベンチマーク評価
LLM
ベンチマーク
Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.
ReMix:LLM 微調整における LoRA 混合物のための強化学習ルーティング
監視付き微調整
モデル学習
Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.
大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習
LLM
強化学習
Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.
MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答
視覚質問応答
ビデオ理解
Kangsan Kim, Yanlai Yang, Suji Kim, et al.
Flash-KMeans:高速かつメモリ効率に優れた厳密 K-Means
ディープラーニング
NVIDIA
Shuo Yang, Haocheng Xi, Yilong Zhao, et al.
1
2
3
4
5
6
7
57