HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Fathom-DeepResearch : Déverrouiller la recherche d'information et la synthèse à long terme pour les SLM

Shreyas Singh Kunal Singh Pradeep Moturi

Fathom-DeepResearch : Déverrouiller la recherche d'information et la synthèse à long terme pour les SLM

Résumé

Le raisonnement intégré aux outils s’est imposé comme un axe central pour permettre le développement d’applications agencées. Parmi celles-ci, les agents DeepResearch ont attiré une attention croissante en raison de leurs performances remarquables sur des tâches complexes et à réponse ouverte nécessitant une recherche d’information. Nous présentons Fathom-DeepResearch, un système agencé composé de deux modèles spécialisés. Le premier est Fathom-Search-4B, un modèle DeepSearch entraîné à partir de Qwen3-4B et optimisé pour des investigations fondées sur des preuves grâce à une recherche en temps réel sur le web et une interrogation ciblée de pages web. Son entraînement repose sur trois avancées : (i) DUETQA, un jeu de données de 5 000 échantillons généré par auto-jouissance multi-agents, qui impose une dépendance stricte à la recherche web et un ancrage dans des sources hétérogènes ; (ii) RAPO, une extension à surcoût nul de GRPO, qui stabilise l’apprentissage par renforcement multi-tours avec récompenses vérifiables grâce à une élagage curriculaire, une mise à l’échelle avantageuse sensible à la récompense et des mémoires de rejeu par prompt ; (iii) une récompense contrôlable au niveau des étapes, qui classe chaque appel d’outil selon son comportement cognitif et son utilité marginale, permettant ainsi un contrôle explicite sur la largeur, la profondeur et l’horizon de la trajectoire de recherche. Ces améliorations permettent une extension fiable de l’appel d’outils au-delà de 20 appels, lorsque cela est justifié. Le second composant est Fathom-Synthesizer-4B, également entraîné à partir de Qwen3-4B, qui transforme les traces multi-tours de DeepSearch en rapports structurés et riches en citations, destinés à une synthèse complète. Évalué sur des benchmarks DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) ainsi que sur DeepResearch-Bench, le système atteint des performances de pointe dans la catégorie des poids ouverts, tout en démontrant une forte capacité de généralisation à diverses tâches de raisonnement, notamment HLE, AIME-25, GPQA-Diamond et MedQA.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Fathom-DeepResearch : Déverrouiller la recherche d'information et la synthèse à long terme pour les SLM | Articles de recherche | HyperAI