HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Principal

GPU

Console
Studio
Docs
Tarifs

Pulse

Actualités

Ressources

Publications de recherche
Notebooks
Jeux de données
Wiki

Benchmarks

SOTA
Modèles LLM
Classement des GPU

Communauté

Événements

Utilitaires

À propos Conditions d’utilisation Politique de confidentialité
Français

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Articles de recherche en IA de pointe mis à jour quotidiennement pour vous aider à suivre les dernières tendances en IA

Construire l’avenir de l’intelligence artificielle

À propos

À propos Support Aide relative au jeu de données

Produits

Actualités Publications de recherche Notebooks Jeux de données Wiki

Liens

© HyperAI

GitHub Discord X (formerly Twitter)

Mise à l'échelle du pré-entraînement vidéo par mélange d'experts pour l'intelligence incarnée

Mise à l'échelle du pré-entraînement vidéo par mélange d'experts pour l'intelligence incarnée

Génération De Vidéo

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA : MÉMOIRE LATENTE DOUBLE DANS LES MODÈLES VISION-LANGAGE-ACTION POUR LA MANIPULATION ROBOTIQUE

LAME M-VLA : MÉMOIRE LATENTE DOUBLE DANS LES MODÈLES VISION-LANGAGE-ACTION POUR LA MANIPULATION ROBOTIQUE

Représentation Multimodale

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

Compréhension précise, interdisciplinaire et transparente des relations structure-propriété grâce au raisonnement structurel natif profond

IA Pour La Science

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

Décodage autorégressif parallélisé pour le sous-titrage dense de vidéos omni-modales

Video Captioning

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni : Réflexe plutôt que raisonnement dans la compréhension vidéo agentique avec mémoire à long terme

Compréhension Vidéo

Chang Nie, Jiaju Wei, Junlan Feng, et al.

La vision comme génération multimodale unifiée

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Attention Hiérarchique Éparse Bien Faite : Vers une Modélisation de Contexte Infini

Xiang Hu, Xinyu Wei, Hao Gu, et al.

AlayaWorld : Génération de mondes vidéo jouables à long horizon

Génération De Vidéo

RynnWorld-4D : Modèles du monde incarnés en 4D pour la manipulation robotique

Modèle De Diffusion

Génération De Vidéo

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B : Compression des LLMs hybrides à mélange d'experts

Entraînement Du Modèle

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Distillation sur politique multi-tours avec rejeu de préfixes

Apprentissage Par Renforcement

Baohao Liao, Hanze Dong, Christof Monz, et al.

Rapport technique Gemma 4

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD : Distillation multi-plateforme on-policy pour l’apprentissage continu d’agents d’interface graphique

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2 : Résolution Supérieure, Même Latence

Génération De Vidéo

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

EVA-Client : un cadre unifié pour le déploiement, l'évaluation et la collecte de données sur des robots réels

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1 : Une feuille de route pour construire des modèles du monde pour l'évaluation de politiques robotiques

Génération De Vidéo

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea : Une suite de compétences pour l'idéation de recherche fondée sur des preuves à partir des résultats de conférences en apprentissage automatique

Génération Augmentée Par La Recherche

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel : Automatiser le dernier kilomètre de la recherche, de l'article à l'affiche, la vidéo et le blog

Compréhension De Document

Génération De Texte

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench : Mesurer le raisonnement métacognitif fonctionnel dans les grands modèles de langage

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D : Compréhension fine des fonctionnalités et des affordances dans les scènes 3D

Vision Machine 3D

Segmentation Sémantique

TheoremGraph : relier les mathématiques formelles et informelles

Génération Augmentée Par La Recherche

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Agents perpétuellement actifs : un état de l’art sur la mémoire persistante, l’état et la gouvernance dans les agents LLM

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Sécuriser l’agent IA : un cadre unifié pour l’évaluation offensive multi-couche des agents

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM : Jeux de données ouverts améliorés pour les modèles vision-langage

Jeu De Données

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant : Quantification indépendante des données pour les transformeurs de diffusion d’images et de vidéos

Modèle De Diffusion

Génération D'images

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector : Inférence légère de détection et correction pour un horizon d’action adaptatif

Apprentissage Par Renforcement

Yi Pan, Miao Pan, Qi Lu, et al.

Embodied.cpp : un moteur d'exécution portable pour modèles d'IA incarnée sur des robots hétérogènes

Intelligence Incarnée

Ling Xu, Chuyu Han, Borui Li, et al.

Le mirage de l’optimisation des politiques d’entraînement : les politiques d’inférence monotones comme véritable objectif pour l’apprentissage par renforcement des grands modèles de langage

Entraînement Du Modèle

Affinage Supervisé

Jing Liang, Hongyao Tang, Yi Ma, et al.

GeneBench-Pro : Évaluation du raisonnement statistique multi-étapes en génomique, biologie quantitative et biomédecine translationnelle

IA Pour La Science

Jeremy Li, Andrew Ho

Position : La recherche sur les deepfakes en IA/ML est mal alignée avec l’imagerie intime non consensuelle générée par IA (AIG-NCII)

Génération D'images

Apprentissage Profond

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

Comprendre le grokking : Preuves de grokking en régression ridge

Apprentissage Profond

Entraînement Du Modèle

Mingyue Xu, Gal Vardi, Itay Safran

Une perspective de théorie des matrices aléatoires sur la cohérence des modèles de diffusion

Modèle De Diffusion

Apprentissage Profond

Binxu Wang, Jacob Zavatone-Veth, Cengiz Pehlevan

Mise à l'échelle du pré-entraînement vidéo par mélange d'experts pour l'intelligence incarnée

Mise à l'échelle du pré-entraînement vidéo par mélange d'experts pour l'intelligence incarnée

Génération De Vidéo

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA : MÉMOIRE LATENTE DOUBLE DANS LES MODÈLES VISION-LANGAGE-ACTION POUR LA MANIPULATION ROBOTIQUE

LAME M-VLA : MÉMOIRE LATENTE DOUBLE DANS LES MODÈLES VISION-LANGAGE-ACTION POUR LA MANIPULATION ROBOTIQUE

Représentation Multimodale

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

Compréhension précise, interdisciplinaire et transparente des relations structure-propriété grâce au raisonnement structurel natif profond

IA Pour La Science

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

Décodage autorégressif parallélisé pour le sous-titrage dense de vidéos omni-modales

Video Captioning

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni : Réflexe plutôt que raisonnement dans la compréhension vidéo agentique avec mémoire à long terme

Compréhension Vidéo

Chang Nie, Jiaju Wei, Junlan Feng, et al.

La vision comme génération multimodale unifiée

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Attention Hiérarchique Éparse Bien Faite : Vers une Modélisation de Contexte Infini

Xiang Hu, Xinyu Wei, Hao Gu, et al.

AlayaWorld : Génération de mondes vidéo jouables à long horizon

Génération De Vidéo

RynnWorld-4D : Modèles du monde incarnés en 4D pour la manipulation robotique

Modèle De Diffusion

Génération De Vidéo

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B : Compression des LLMs hybrides à mélange d'experts

Entraînement Du Modèle

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Distillation sur politique multi-tours avec rejeu de préfixes

Apprentissage Par Renforcement

Baohao Liao, Hanze Dong, Christof Monz, et al.

Rapport technique Gemma 4

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD : Distillation multi-plateforme on-policy pour l’apprentissage continu d’agents d’interface graphique

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2 : Résolution Supérieure, Même Latence

Génération De Vidéo

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

EVA-Client : un cadre unifié pour le déploiement, l'évaluation et la collecte de données sur des robots réels

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1 : Une feuille de route pour construire des modèles du monde pour l'évaluation de politiques robotiques

Génération De Vidéo

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea : Une suite de compétences pour l'idéation de recherche fondée sur des preuves à partir des résultats de conférences en apprentissage automatique

Génération Augmentée Par La Recherche

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel : Automatiser le dernier kilomètre de la recherche, de l'article à l'affiche, la vidéo et le blog

Compréhension De Document

Génération De Texte

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench : Mesurer le raisonnement métacognitif fonctionnel dans les grands modèles de langage

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D : Compréhension fine des fonctionnalités et des affordances dans les scènes 3D

Vision Machine 3D

Segmentation Sémantique

TheoremGraph : relier les mathématiques formelles et informelles

Génération Augmentée Par La Recherche

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Agents perpétuellement actifs : un état de l’art sur la mémoire persistante, l’état et la gouvernance dans les agents LLM

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Sécuriser l’agent IA : un cadre unifié pour l’évaluation offensive multi-couche des agents

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM : Jeux de données ouverts améliorés pour les modèles vision-langage

Jeu De Données

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant : Quantification indépendante des données pour les transformeurs de diffusion d’images et de vidéos

Modèle De Diffusion

Génération D'images

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector : Inférence légère de détection et correction pour un horizon d’action adaptatif

Apprentissage Par Renforcement

Yi Pan, Miao Pan, Qi Lu, et al.

Embodied.cpp : un moteur d'exécution portable pour modèles d'IA incarnée sur des robots hétérogènes

Intelligence Incarnée

Ling Xu, Chuyu Han, Borui Li, et al.

Le mirage de l’optimisation des politiques d’entraînement : les politiques d’inférence monotones comme véritable objectif pour l’apprentissage par renforcement des grands modèles de langage

Entraînement Du Modèle

Affinage Supervisé

Jing Liang, Hongyao Tang, Yi Ma, et al.

GeneBench-Pro : Évaluation du raisonnement statistique multi-étapes en génomique, biologie quantitative et biomédecine translationnelle

IA Pour La Science

Jeremy Li, Andrew Ho

Position : La recherche sur les deepfakes en IA/ML est mal alignée avec l’imagerie intime non consensuelle générée par IA (AIG-NCII)

Génération D'images

Apprentissage Profond

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

Comprendre le grokking : Preuves de grokking en régression ridge

Apprentissage Profond

Entraînement Du Modèle

Mingyue Xu, Gal Vardi, Itay Safran

Une perspective de théorie des matrices aléatoires sur la cohérence des modèles de diffusion

Modèle De Diffusion

Apprentissage Profond

Binxu Wang, Jacob Zavatone-Veth, Cengiz Pehlevan

Compréhension précise, interdisciplinaire et transparente des relations structure-propriété grâce au raisonnement structurel natif profond

Décodage autorégressif parallélisé pour le sous-titrage dense de vidéos omni-modales

Light-Omni : Réflexe plutôt que raisonnement dans la compréhension vidéo agentique avec mémoire à long terme

La vision comme génération multimodale unifiée

Attention Hiérarchique Éparse Bien Faite : Vers une Modélisation de Contexte Infini

AlayaWorld : Génération de mondes vidéo jouables à long horizon

RynnWorld-4D : Modèles du monde incarnés en 4D pour la manipulation robotique

Nemotron-Labs-3-Puzzle-75B-A9B : Compression des LLMs hybrides à mélange d'experts

Distillation sur politique multi-tours avec rejeu de préfixes

Rapport technique Gemma 4

UI-MOPD : Distillation multi-plateforme on-policy pour l’apprentissage continu d’agents d’interface graphique

Wan-Streamer v0.2 : Résolution Supérieure, Même Latence

EVA-Client : un cadre unifié pour le déploiement, l'évaluation et la collecte de données sur des robots réels

GigaWorld-1 : Une feuille de route pour construire des modèles du monde pour l'évaluation de politiques robotiques

ResearchStudio-Idea : Une suite de compétences pour l'idéation de recherche fondée sur des preuves à partir des résultats de conférences en apprentissage automatique

ResearchStudio-Reel : Automatiser le dernier kilomètre de la recherche, de l'article à l'affiche, la vidéo et le blog

FINAL Bench : Mesurer le raisonnement métacognitif fonctionnel dans les grands modèles de langage

SceneFun3D : Compréhension fine des fonctionnalités et des affordances dans les scènes 3D

TheoremGraph : relier les mathématiques formelles et informelles

Agents perpétuellement actifs : un état de l’art sur la mémoire persistante, l’état et la gouvernance dans les agents LLM

Sécuriser l’agent IA : un cadre unifié pour l’évaluation offensive multi-couche des agents

DataComp-VLM : Jeux de données ouverts améliorés pour les modèles vision-langage

OrbitQuant : Quantification indépendante des données pour les transformeurs de diffusion d’images et de vidéos

VLA-Corrector : Inférence légère de détection et correction pour un horizon d’action adaptatif

Embodied.cpp : un moteur d'exécution portable pour modèles d'IA incarnée sur des robots hétérogènes

Le mirage de l’optimisation des politiques d’entraînement : les politiques d’inférence monotones comme véritable objectif pour l’apprentissage par renforcement des grands modèles de langage

GeneBench-Pro : Évaluation du raisonnement statistique multi-étapes en génomique, biologie quantitative et biomédecine translationnelle

Position : La recherche sur les deepfakes en IA/ML est mal alignée avec l’imagerie intime non consensuelle générée par IA (AIG-NCII)

Comprendre le grokking : Preuves de grokking en régression ridge

Une perspective de théorie des matrices aléatoires sur la cohérence des modèles de diffusion

Compréhension précise, interdisciplinaire et transparente des relations structure-propriété grâce au raisonnement structurel natif profond

Décodage autorégressif parallélisé pour le sous-titrage dense de vidéos omni-modales

Light-Omni : Réflexe plutôt que raisonnement dans la compréhension vidéo agentique avec mémoire à long terme

La vision comme génération multimodale unifiée

Attention Hiérarchique Éparse Bien Faite : Vers une Modélisation de Contexte Infini

AlayaWorld : Génération de mondes vidéo jouables à long horizon

RynnWorld-4D : Modèles du monde incarnés en 4D pour la manipulation robotique

Nemotron-Labs-3-Puzzle-75B-A9B : Compression des LLMs hybrides à mélange d'experts

Distillation sur politique multi-tours avec rejeu de préfixes

Rapport technique Gemma 4

UI-MOPD : Distillation multi-plateforme on-policy pour l’apprentissage continu d’agents d’interface graphique

Wan-Streamer v0.2 : Résolution Supérieure, Même Latence

EVA-Client : un cadre unifié pour le déploiement, l'évaluation et la collecte de données sur des robots réels

GigaWorld-1 : Une feuille de route pour construire des modèles du monde pour l'évaluation de politiques robotiques

ResearchStudio-Idea : Une suite de compétences pour l'idéation de recherche fondée sur des preuves à partir des résultats de conférences en apprentissage automatique

ResearchStudio-Reel : Automatiser le dernier kilomètre de la recherche, de l'article à l'affiche, la vidéo et le blog

FINAL Bench : Mesurer le raisonnement métacognitif fonctionnel dans les grands modèles de langage

SceneFun3D : Compréhension fine des fonctionnalités et des affordances dans les scènes 3D

TheoremGraph : relier les mathématiques formelles et informelles

Agents perpétuellement actifs : un état de l’art sur la mémoire persistante, l’état et la gouvernance dans les agents LLM

Sécuriser l’agent IA : un cadre unifié pour l’évaluation offensive multi-couche des agents

DataComp-VLM : Jeux de données ouverts améliorés pour les modèles vision-langage

OrbitQuant : Quantification indépendante des données pour les transformeurs de diffusion d’images et de vidéos

VLA-Corrector : Inférence légère de détection et correction pour un horizon d’action adaptatif

Embodied.cpp : un moteur d'exécution portable pour modèles d'IA incarnée sur des robots hétérogènes

Le mirage de l’optimisation des politiques d’entraînement : les politiques d’inférence monotones comme véritable objectif pour l’apprentissage par renforcement des grands modèles de langage

GeneBench-Pro : Évaluation du raisonnement statistique multi-étapes en génomique, biologie quantitative et biomédecine translationnelle

Position : La recherche sur les deepfakes en IA/ML est mal alignée avec l’imagerie intime non consensuelle générée par IA (AIG-NCII)

Comprendre le grokking : Preuves de grokking en régression ridge

Une perspective de théorie des matrices aléatoires sur la cohérence des modèles de diffusion