Command Palette
Search for a command to run...
AI論文ウィークリーレポート | タンパク質の新規設計 / オープンソースエージェントソリューション / HunyuanOCR / Olmo 3言語モデル…ワンクリックで概要を表示

マルチモーダル大規模言語モデル (MLLM) は、人間のようなインタラクションを実現する大きな可能性を秘めていますが、その開発は重要な課題に直面しています。それは、複雑な人間の意図を理解するモデルの能力と、共感的でコンテキストを認識したフィードバックを提供する能力を同時に測定できる、人間中心のシナリオに対するきめ細かい評価フレームワークが欠如していることです。
これを踏まえ、西安交通大学の研究チームはAnt Groupと共同で、MLLMの人間中心の知覚およびインタラクション能力を評価するための包括的なベンチマークであるHumanSenseを提案しました。これは、拡張されたマルチモーダルコンテキストの深い理解と合理的な応答の策定に特に重点を置いています。結果は、MLLMが人間中心のシナリオ、特に高度なインタラクションを指向するタスクにおいて、大きな改善の余地があることを示しています。研究者らはまた、多段階のモダリティ漸進的強化学習法であるHumanSense-Omni-Reasoningを設計しました。これにより、高度な理解およびインタラクションタスクにおけるパフォーマンスが大幅に向上します。
ペーパーリンク:https://go.hyper.ai/xYM02
最新のAI論文:https://go.hyper.ai/hzChC
学術界における人工知能分野の最新動向をより多くのユーザーに知ってもらうため、HyperAI の公式サイト (hyper.ai) に「最新論文」セクションが開設され、最先端の AI 研究論文が毎日更新されます。おすすめのAI論文5選今週の最先端のAIの成果を簡単に見てみましょう⬇️
今週のおすすめ紙
1.ジャム2
タイトル: JAM-2: 高い成功率を持つ薬物様抗体の完全計算設計
本稿では、汎用的なde novoタンパク質設計システムであるJAM-2を紹介します。JAM-2は、薬剤と同様の親和性と開発可能性を備えたVHH-Fc抗体および完全長モノクローナル抗体(mAb)の高効率設計を初めて実現し、これまでにない幅広い標的およびエピトープにおいて2桁の成功率を達成しました。JAM-2は、16の未知の標的について、全ての標的に対する結合分子の取得に成功し、平均成功率はVHH-Fcで39%、mAbで18%でした。
論文リンク:https://go.hyper.ai/3Mfna

2.オルモ3
本稿では、70億および320億のパラメータスケールを備えた、業界をリードする完全オープンソース言語モデルファミリーであるOlmo 3をご紹介します。Olmo 3モデルは、ロングコンテキスト推論、関数呼び出し、プログラミング、命令追跡、一般的な対話、そして知識検索を可能にするように設計されています。このリリースには、ビルドからデプロイメントまでのモデルファミリーのライフサイクル全体をカバーする完全なモデルフローが含まれており、すべてのトレーニングフェーズ、チェックポイント、データポイント、依存関係を網羅しています。
論文リンク:https://go.hyper.ai/HgvWV

3.ルミネ
タイトル: Lumine: 3Dオープンワールドでジェネラリストエージェントを構築するためのオープンレシピ
本論文では、複雑な3Dオープンワールド環境において、複雑なタスクを何時間もリアルタイムで実行できる、初のオープンソース汎用知能エージェント開発スキームであるLumineを提案する。このモデルは、人間のようなインタラクションパラダイムを採用し、視覚言語モデルを通じて、知覚、推論、行動をエンドツーエンドで統合する。生のピクセル入力を毎秒5フレームの速度で処理し、キーボードとマウスの正確な動作を毎秒30フレームで生成し、必要な場合にのみ推論モジュールを動的に呼び出す。
論文リンク:https://go.hyper.ai/6qg4A

4.ヒューマンセンス
タイトル: HumanSense: マルチモーダル知覚から推論MLLMによる共感的コンテキスト認識応答へ
本論文では、人間中心の知覚とインタラクションにおけるMLLMの能力を評価するために設計された包括的なベンチマークフレームワークであるHumanSenseを提案します。特に、長期的なマルチモーダルコンテキストの深い理解と合理的な応答の生成に焦点を当てています。評価結果から、現在主流のMLLMは、高レベルインタラクションタスクにおいて依然として大きな改善の余地があることがわかりました。さらに、本論文では、多段階のモダリティ漸進的強化学習アプローチを設計し、HumanSense-Omni-Reasoningモデルを構築します。このモデルは、高レベル理解およびインタラクションタスクにおけるモデルのパフォーマンスを大幅に向上させます。
論文リンク:https://go.hyper.ai/xYM02

5.HunyuanOCR技術レポート
本稿では、OCRタスク向けの商用グレード、オープンソース、軽量(10億パラメータ)な視覚言語モデル(VLM)であるHunyuanOCRを提案します。このモデルアーキテクチャは、ネイティブのビジュアルトランスフォーマー(ViT)と軽量な大規模言語モデル(LLM)で構成され、MLPアダプタを介して接続されています。HunyuanOCRは、既存の商用API、従来の処理ワークフロー、そしてパラメータ数の多いモデル(Qwen3-VL-4Bなど)を凌駕する優れた性能を発揮します。
論文リンク:https://go.hyper.ai/KxstF

今週の論文推薦は以上です。さらに最先端のAI研究論文をご覧になりたい方は、hyper.ai公式サイトの「最新論文」セクションをご覧ください。
質の高い研究成果や論文の提出を歓迎いたします。ご興味のある方は、NeuroStar WeChat(WeChat ID: Hyperai01)にご登録ください。
また来週お会いしましょう!








