AIウィークリーレポート:NVIDIAの最新言語モデル/Ovis 2.5テクニカルレポート…大規模モデルアーキテクチャの最適化/3Dモデリング/アライメントと自己検証における最新の進歩を簡単に紹介

特色图像

大規模言語モデルの急速な発展に伴い、フルアテンション機構は驚異的な精度を示してきました。しかし、その計算複雑度はO(n²)であり、ロングコンテキストタスクではメモリと計算能力の消費量が非常に大きく、効率的な適用が制限されています。既存のアーキテクチャは多くの場合、ゼロからの学習に依存しており、これはコストが高く、中小規模の研究機関には適していません。ハイブリッドアーキテクチャは、精度と効率のバランスを保ちながらも、設計の複雑さとハードウェアの適応という課題に直面しています。

これらの課題に対処するため、研究チームは Jet-Nemotron を提案しました。これは、Post-Neural Architecture Search (PostNAS) を使用して、事前トレーニング済みのフルアテンションモデルの MLP 重みを固定し、最適なアテンションモジュール設計を探索し、フルアテンションモデルの精度を維持または上回りながら生成スループットを大幅に向上させ、効率的な言語モデル設計への実現可能なパスを提供します。

ペーパーリンク:https://go.hyper.ai/8MhfF

最新のAI論文:https://go.hyper.ai/hzChC

学術界における人工知能分野の最新動向をより多くのユーザーに知ってもらうため、HyperAI の公式サイト (hyper.ai) に「最新論文」セクションが開設され、最先端の AI 研究論文が毎日更新されます。おすすめのAI論文5選同時に、論文の構成をまとめたマインドマップも作成しました。それでは、今週のAI最先端成果を簡単に見ていきましょう⬇️

今週のおすすめ紙

1. Jet-Nemotron: ポストニューラルアーキテクチャ検索による効率的な言語モデル

本論文では、Jet-Nemotronを紹介します。これは、主要なフルアテンションモデルの精度を維持または上回りながら、生成スループットを大幅に向上させる、革新的なハイブリッドアーキテクチャ言語モデルファミリーです。Jet-Nemotronは、「Post-Neural Architecture Search」と呼ばれる革新的なニューラルアーキテクチャ探索プロセスを用いて開発され、効率的なモデル設計を可能にします。従来のアプローチとは異なり、PostNASは事前学習済みのフルアテンションモデルをベースとし、その多層パーセプトロンの重みを固定することで、アテンションモジュール構造の効率的な探索を可能にします。

論文リンク:https://go.hyper.ai/8MhfF

モデルアーキテクチャ図
紙のマインドマップ

2. Ovis2.5 技術レポート

本稿では、ネイティブ解像度の視覚認識と強力なマルチモーダル推論を実現するために設計されたOvis2.5を紹介します。Ovis2.5は、ネイティブ解像度の視覚変換機能を統合しており、画像をネイティブの可変解像度で直接処理することで、固定解像度のセグメンテーションに伴う画質劣化を回避しながら、細部と全体的なレイアウトを完全に維持します。

論文リンク:https://go.hyper.ai/nZOmk

モデルアーキテクチャ図
紙のマインドマップ

3. FutureX: 未来予測におけるLLMエージェントの高度なライブベンチマーク

未来予測には、エージェントが複雑な推論能力と動的適応能力を備えることが求められ、これは大規模言語モデルエージェントにとって複雑なタスクです。現在、リアルタイムで更新され、予測性能を正確に評価できる大規模ベンチマークは不足しています。本稿では、LLMエージェントの未来予測タスク向けに特別に設計された動的リアルタイム評価ベンチマークであるFutureXを提案します。FutureXは、現在までに最大規模かつ最も多様なリアルタイム予測評価フレームワークです。毎日のリアルタイム更新をサポートし、質問と回答の収集に自動化されたプロセスを使用することで、データの汚染を効果的に排除します。

論文リンク:https://go.hyper.ai/rjbaU

 FutureX実験スコア
紙のマインドマップ

4. MeshCoder: LLM を活用した点群からの構造化メッシュコード生成

3Dオブジェクトを編集可能なプログラムに再構築することは、リバースエンジニアリングや形状編集などのアプリケーションにとって不可欠ですが、既存の方法には依然として多くの限界があります。本論文では、複雑な3Dオブジェクトを点群から編集可能なBlender Pythonスクリプトに再構築する新しいフレームワーク、MeshCoderを提案します。豊富なAPIの開発、大規模なオブジェクトコードデータセットの構築、そしてマルチモーダルな大規模言語モデルの学習により、高精度な形状からコードへの変換を実現します。これにより、3D再構築のパフォーマンスが向上するだけでなく、直感的なジオメトリとトポロジの編集が可能になり、LLMの3D形状理解における推論能力が向上します。

論文リンク:https://go.hyper.ai/EAWIn

モデルアーキテクチャ図
紙のマインドマップ

5. DuPO: DualPreference Optimizationによる信頼性の高いLLM自己検証の実現

本論文では、一般化双対性を用いてラベルなしフィードバックを生成する、デュアルラーニングに基づく選好最適化フレームワークであるDuPOを提案する。DuPOは、2つの主要な制約に対処する。1つ目は、検証可能な報酬を伴う強化学習(RLVR)は高価なアノテーションに依存しており、検証可能なタスクにのみ適用可能であること。2つ目は、従来のデュアルラーニングは厳密にデュアルタスクペア(例:翻訳と逆翻訳)に限定されていることである。

論文リンク:https://go.hyper.ai/2Gycl

モデルアーキテクチャ図
紙のマインドマップ

今週の論文推薦は以上です。さらに最先端のAI研究論文をご覧になりたい方は、hyper.ai公式サイトの「最新論文」セクションをご覧ください。

質の高い研究成果や論文の提出を歓迎いたします。ご興味のある方は、NeuroStar WeChat(WeChat ID: Hyperai01)にご登録ください。

また来週お会いしましょう!