AIウィークリー論文レポート:アリババ、厦門大学、浙江大学などによる最新研究、強化学習最適化アルゴリズム、GUIエージェント、マルチモーダルコンテキスト圧縮などを網羅

大規模言語モデルのスケールが拡大するにつれ、効率的かつ安定した強化学習のトレーニングが重要な課題となっています。これに対処するため、アリババグループのQwenチームは、Group Sequence Policy Optimization(GSPO)という新しい強化学習アルゴリズムを提案しました。
トークンレベルの重要度比に依存する従来の手法とは異なり、GSPOはシーケンス確率に基づいて重要度比を定義し、シーケンスレベルで切り捨て、報酬、最適化を実行することで、トレーニングの安定性と効率性を大幅に向上させます。GSPOはMixture-of-Expertsアーキテクチャ内で非常に優れたパフォーマンスを発揮し、強化学習インフラストラクチャの設計を簡素化し、最新のQwen3モデルのパフォーマンスを大幅に向上させます。
ペーパーリンク:https://go.hyper.ai/FOrdj
最新のAI論文:https://go.hyper.ai/hzChC
学術界における人工知能分野の最新動向をより多くのユーザーに知ってもらうため、HyperAI の公式サイト (hyper.ai) に「最新論文」セクションが開設され、最先端の AI 研究論文が毎日更新されます。おすすめのAI論文5選今週の最先端のAIの成果を簡単に見てみましょう⬇️
今週のおすすめ紙
1 グループシーケンスポリシーの最適化
本稿では、大規模言語モデルの学習に適した、安定性、効率性、そして高性能な強化学習アルゴリズムであるグループシーケンスポリシー最適化(GSPO)を紹介します。トークンの重要度比を用いる従来のアルゴリズムとは異なり、GSPOはシーケンス尤度に基づいて重要度比を定義し、シーケンスレベルの枝刈り、報酬、そして最適化を実行します。
論文リンク:https://go.hyper.ai/FOrdj

2 UI-AGILE: 効果的な強化学習と正確な推論時間グラウンディングによる GUI エージェントの進化
既存のGUIエージェントの学習および推論手法は、推論設計の難しさ、効果のない報酬メカニズム、視覚ノイズによる干渉といった課題に依然として直面しています。本論文では、選択的分解アライメントという新たな手法を提案します。この手法は、画像をより小さく扱いやすい部分に分割することで、高解像度インターフェースにおけるアライメント精度を大幅に向上させます。実験結果から、UI-AGILEはScreenSpot-ProとScreenSpot-v2という2つのベンチマークタスクにおいて、最先端の性能を達成することが実証されました。
論文リンク:https://go.hyper.ai/SRpdE

3 トークンが喋りすぎるとき: 画像、動画、音声におけるマルチモーダルロングコンテキストトークン圧縮の調査
本論文は、急速に発展しているマルチモーダル長文脈トークン圧縮という研究分野について、初めて体系的なレビューと概要を提示する。様々なモダリティの固有の特性と冗長性を考慮し、研究者は既存の手法を主に扱うデータの種類(画像中心圧縮、ビデオ中心圧縮、音声中心圧縮)ごとに分類し、特定の研究分野に適用可能な手法に迅速にアクセスできるようにしている。
論文リンク:https://go.hyper.ai/nOYw4

4 SciToolAgent: マルチツール統合のための知識グラフ駆動型科学エージェント
本稿では、LLMを基盤とするエージェントであるSciToolAgentを紹介します。SciToolAgentは、生物学、化学、材料科学分野における数百もの科学研究ツールの操作を自動化します。SciToolAgentの中核となるのは、グラフベースの検索拡張生成(RAG)メカニズムを活用した科学ツール知識グラフです。これにより、インテリジェントなツールの選択と実行が可能になります。また、このシステムには包括的な安全性チェックモジュールが統合されており、責任ある倫理的なツール使用を保証します。
論文リンク:https://go.hyper.ai/IOiRk

5 SmallThinker: 効率的な 大規模言語モデルをネイティブに 現地展開のための訓練
本稿では、クラウドモデルから圧縮されたものではなく、ローカルデバイス向けにネイティブに設計されたLLMセットであるSmallThinkerを紹介します。SmallThinkerは、ローカルデバイス特有の制約、すなわち、低いコンピューティング能力、限られたメモリ、そして低速なストレージといった問題に対処するために特別に設計されています。SmallThinkerは、制約のある環境でも効率的に動作するようにアーキテクチャを再設計しました。その核となるのは、システム制約を設計原則へと変換する革新的な「デプロイメント指向」アーキテクチャです。
論文リンク:https://go.hyper.ai/tSwpG

今週の論文推薦は以上です。さらに最先端のAI研究論文をご覧になりたい方は、hyper.ai公式サイトの「最新論文」セクションをご覧ください。
質の高い研究成果や論文の提出を歓迎いたします。ご興味のある方は、NeuroStar WeChat(WeChat ID: Hyperai01)にご登録ください。
また来週お会いしましょう!