HyperAIHyperAI

Command Palette

Search for a command to run...

新しい見出し AI & ML 週間ニュース: 2023年5月12日〜18日 ランク表の幻想:チャットボット・アリーナの比較が歪められている 研究では、選択的なスコア報告、データの不均衡、モデルの無言の削除などにより、LLMの比較が歪められていることが明らかに。 LLMはマルチターン会話でパフォーマンス低下 多い会話ターン数で、LLMのタスク遂行能力が平均39%低下することが判明。 サカナAI、脳から着想を得た「継続思考マシン」を発表 日本のAI企業サカナが、過去の行動を記憶し、タイミングパターンに基づいて協調する新モデルを開発。 AlphaEvolve:Geminiを活用した高度アルゴリズム設計エージェント Google DeepMindのAlphaEvolveが、Geminiモデルを使用してアルゴリズムを生成・進化させ、Googleのインフラストラクチャ改善に貢献。 ChatGPTが学生の学習性能と高次思考を向上させる メタアナリシスによると、ChatGPTは学生の学習性能を大幅に向上させ、学習認識も中程度に向上。 BLIP3-o:完全オープンな多モーダルモデルのファミリー 新しいディフュージョン・トランスフォーマー・アーキテクチャが、多様な多モーダルベンチマークで最先端の性能を達成。 Meta、元Google DeepMindディレクターをAI研究ラボの新頭取に任命 Robert Fergus氏がMetaのFAIRラボの新責任者に就任。 MicrosoftとOpenAI、パートナーシップを再検討 MicrosoftがOpenAIとの多額の契約を見直し、2030年以降の技術アクセスを求める。 ChatGPT、GitHubリポジトリ分析機能を追加 Deep ResearchエージェントがGitHubリポジトリの分析をサポートし、詳細な報告書を生成。 curlプロジェクト、AIによる虚偽脆弱性報告への対策を訴える curl創設者が、AIによる虚偽脆弱性報告の急増に対し、より良いインフラとツールの必要性を強調。 Gemini 2.5、ビデオ理解で新記録 Gemini 2.5 Proがビデオベンチマークで最先端の成果を達成。 カナダ薬剤師、世界最大の非同意深偽サイトの主犯と判明 調査ジャーナリストが、650,000ユーザーと20億回以上のビューを持つ深偽サイトの運営者を特定。 OpenAI、30億ドルでWindsurfを買収 OpenAIがAI支援コーディングツールWindsurfを30億ドルで購入。 SoundCloud、利用規約を更新してAI訓練を許可 SoundCloudが利用規約を更新し、ユーザーがアップロードしたコンテンツをAI訓練に使用可能に。 FutureHouse、AIを使用した科学研究加速ツールを公開 Eric Schmidtが支援する非営利組織が、AIベースの科学研究支援プラットフォームをリリース。 英国議会上院、政府のAI計画に反対 政府のAI関連法案修正案が否決され、著作権使用の透明性が求められる。 OpenAIのStargateプロジェクト、関税問題で立ち上がり困難 関税の経済的不確定性が、OpenAIの大規模データセンター構築に遅れをもたらす。 Google、AIスタートアップ向け基金を設立 GoogleがAI Futures Fundを立ち上げ、DeepMindのAIツールを使用するスタートアップに投資。 Google、AIコーディングアシスタント市場に参入 GoogleがI/OカンファレンスでAIソフトウェア開発エージェントを発表。 Figma、ウェブサイトビルダー機能を導入 FigmaがFigma Sitesを発表し、レスポンシブウェブサイトの設計・構築・公開が可能に。 中国、AIデータセンターブームの過剰供給問題 中国のAIデータセンターの急速な増加が、80%の計算リソースが未使用の状態に。 OpenAI、医療対話を評価する新たなベンチマークを発表 262人の医師と共同で、AIモデルの医療対話性能を評価するHealthBenchを公開。 IBM、Bamba-9B-v2を発表 Bamba v2がLlama 3.1 8Bを上回る性能を達成し、高速推論と強力なベンチマーク結果を示す。 Geminiを活用した複雑な文章の簡素化 Geminiモデルを使用して文章の読みやすさを維持しつつ簡素化するシステムが開発。 AIエージェントがウェブユーザー体験と開発を変革 AIエージェントがウェブ上の自動化インタラクションとコンテンツ共有を可能にし、ユーザー体験と開発の未来を展望。 これらの見出しは、記事の核心的なメッセージを简洁かつ魅力的に伝え、技術マニアにもアピールするよう工夫しています。

AI & ML NEWS (5月12日〜5月18日) 研究 Leaderboard Illusion リサーチペーパー「The Leaderboard Illusion」は、Chatbot Arenaのランキングシステムの重大な欠陥を暴露した。この研究では200万回以上のバトルを分析し、スコア選別報告、データの極端な不均衡、モデルの無通知削除、および特有の動態に対して過学習が、大規模言語モデル(LLM)の比較を歪める主因として挙げられている。特に、独自のモデルへのプライベートテスト権限やデータアクセスが、公正性を損ない、現実世界でのモデル性能を適切に反映していないことが明らかとなった。 Multi-Turn Conversation in LLMs 多ターン会話におけるLLMの性能が大幅に低下することが示された。特に、初期仮定の誤りや信頼性の低さにより、タスク性能は平均39%減退しているという。 Sakana AIのニューモデル 日本のAI企業Sakana AIが新モデル「Continuous Thought Machine」を開発。これは脳の神経細胞のタイミングパターンに着想を得たもので、個々の神経細胞が過去の行動を記憶し、タイミングに基づいて調整を行る。現在のモデルは性能的には従来のものに劣るが、推論プロセスの透明性が高まるという利点がある。 AlphaEvolve: ジェミナイ搭載のコードエージェント Google DeepMindのAlphaEvolveはジェミナイモデルを用いて、洗練されたアルゴリズムソリューションを段階的に作成・改善する新しいコージングエージェントだ。コード生成、自動評価を行い、成功を繰り返しながらより良いバージョンへと進化させる。これによりGoogleのインフラストラクチャ全体で大きな進歩が見られ、データセンターのパフォーマンスやAIトレーニング効率などが向上している。 ChatGPTの教育効果 チャットGPTは学生の学習成績を大幅に向上させ、中程度ながら学習認識と高次思考に好影響を及ぼすことがmeta分析による51件の研究から明らかになった。最大の効果は4~8週間の定期使用で、問題ベース学習環境での使用時に見られた。 BLIP3-o: 開放型多モーダルモデル 新たな分散変換モデル「BLIP3-o」が開発され、一連の前処理により各種多モーダルベンチマークで最高の性能を達成。同モデルのコード、事前トレーニング重み、6万行の指令調整データセットが公開されている。 ニュース MetaのAIラボ新任 Metaが元Google DeepMindディレクターのRobert Fergus氏をFAIRラボの新しいリーダーに任命。これはリーダーシップの頻繁な変動やメンバーの退職を受けての決定だ。 MicrosoftとOpenAIの協力再交渉 MicrosoftとOpenAIが数億ドル規模のパートナーシップを再検討。Microsoftは130億ドル以上を投資したが、それに対して2030年以降の独自テクノロジーへのアクセスの延長を提案している。 Deep ResearchのGitHub連携 Deep ResearchのエージェントがGitHubリポジトリ分析に対応。これを通じてユーザーはソースコードやプルリクエストを詳述分析に利用できるようになった。 curlプロジェクトの虚偽脆弱性報告 curlプロジェクトの創設者Daniel Stenbergが、AIによって生成された多くの虚偽の脆弱性報告について懸念を表明。これらの報告により開発者の時間と焦点が妨害されているという。 Gemini 2.5のビデオ理解 ジェミナイ2.5 Proがビデオベンチマークで最高峰の成果を達成。特に、YouCook2やQVHighlightsでGPT-4.1を超えた性能が確認され、同じ評価条件下で特殊化モデルにも匹敵する。 カナダ薬剤師とDeepFakeサイト カナダのトロント地域の薬剤師David Doが、世界最大の非同意DeepFakeサイトMrDeepFakes.comの中心人物として特定され、同サイトは永久に閉鎖された。2018年以降、同サイトは65万人以上のユーザーを獲得し、20億件以上の視聴を記録していた。AI生成の露悪性コンテンツに対する法規制が検討中。 Windsurfの購入 OpenAIが人工知能補助コーディングツールのWindsurfを約30億ドルで買収。この新しい家族モデルには、一般的なClaude Sonnet 3.5に匹敵するSWE-1、使い放題のSWE-1-lite、そして小型のSWE-1-miniが含まれている。 SoundCloudのAI訓練条件変更 SoundCloudが利用規約を更新し、ユーザーがアップロードしたコンテンツによるAI訓練を許可。ユーザーコンテンツの使用透明性と同意に関する懸念が高まっている。 FutureHouseのAIツールリリース Eric Schmidtが支援する非営利団体FutureHouseが、科学ワークフローを加速するAIツールプラットフォームを発表。このツールはAIビジョンと強化学習を組み合わせたもので、チップ設計や未解決の数学問題を克服することが可能。 業界関係者のコメントや会社概要 curlプロジェクトの創設者Daniel Stenbergは、AIによる虚偽脆弱性報告が開発者の時間と注力を奪っていることを懸念し、「この状況は管理者にとってDoS攻撃のようなもの」と述べた。また、FutureHouseはAIによって科学的作業を加速する非営利団体で、今後10年以内に「AIサイエンティスト」の構築を目指している。

関連リンク

新しい見出し AI & ML 週間ニュース: 2023年5月12日〜18日 ランク表の幻想:チャットボット・アリーナの比較が歪められている 研究では、選択的なスコア報告、データの不均衡、モデルの無言の削除などにより、LLMの比較が歪められていることが明らかに。 LLMはマルチターン会話でパフォーマンス低下 多い会話ターン数で、LLMのタスク遂行能力が平均39%低下することが判明。 サカナAI、脳から着想を得た「継続思考マシン」を発表 日本のAI企業サカナが、過去の行動を記憶し、タイミングパターンに基づいて協調する新モデルを開発。 AlphaEvolve:Geminiを活用した高度アルゴリズム設計エージェント Google DeepMindのAlphaEvolveが、Geminiモデルを使用してアルゴリズムを生成・進化させ、Googleのインフラストラクチャ改善に貢献。 ChatGPTが学生の学習性能と高次思考を向上させる メタアナリシスによると、ChatGPTは学生の学習性能を大幅に向上させ、学習認識も中程度に向上。 BLIP3-o:完全オープンな多モーダルモデルのファミリー 新しいディフュージョン・トランスフォーマー・アーキテクチャが、多様な多モーダルベンチマークで最先端の性能を達成。 Meta、元Google DeepMindディレクターをAI研究ラボの新頭取に任命 Robert Fergus氏がMetaのFAIRラボの新責任者に就任。 MicrosoftとOpenAI、パートナーシップを再検討 MicrosoftがOpenAIとの多額の契約を見直し、2030年以降の技術アクセスを求める。 ChatGPT、GitHubリポジトリ分析機能を追加 Deep ResearchエージェントがGitHubリポジトリの分析をサポートし、詳細な報告書を生成。 curlプロジェクト、AIによる虚偽脆弱性報告への対策を訴える curl創設者が、AIによる虚偽脆弱性報告の急増に対し、より良いインフラとツールの必要性を強調。 Gemini 2.5、ビデオ理解で新記録 Gemini 2.5 Proがビデオベンチマークで最先端の成果を達成。 カナダ薬剤師、世界最大の非同意深偽サイトの主犯と判明 調査ジャーナリストが、650,000ユーザーと20億回以上のビューを持つ深偽サイトの運営者を特定。 OpenAI、30億ドルでWindsurfを買収 OpenAIがAI支援コーディングツールWindsurfを30億ドルで購入。 SoundCloud、利用規約を更新してAI訓練を許可 SoundCloudが利用規約を更新し、ユーザーがアップロードしたコンテンツをAI訓練に使用可能に。 FutureHouse、AIを使用した科学研究加速ツールを公開 Eric Schmidtが支援する非営利組織が、AIベースの科学研究支援プラットフォームをリリース。 英国議会上院、政府のAI計画に反対 政府のAI関連法案修正案が否決され、著作権使用の透明性が求められる。 OpenAIのStargateプロジェクト、関税問題で立ち上がり困難 関税の経済的不確定性が、OpenAIの大規模データセンター構築に遅れをもたらす。 Google、AIスタートアップ向け基金を設立 GoogleがAI Futures Fundを立ち上げ、DeepMindのAIツールを使用するスタートアップに投資。 Google、AIコーディングアシスタント市場に参入 GoogleがI/OカンファレンスでAIソフトウェア開発エージェントを発表。 Figma、ウェブサイトビルダー機能を導入 FigmaがFigma Sitesを発表し、レスポンシブウェブサイトの設計・構築・公開が可能に。 中国、AIデータセンターブームの過剰供給問題 中国のAIデータセンターの急速な増加が、80%の計算リソースが未使用の状態に。 OpenAI、医療対話を評価する新たなベンチマークを発表 262人の医師と共同で、AIモデルの医療対話性能を評価するHealthBenchを公開。 IBM、Bamba-9B-v2を発表 Bamba v2がLlama 3.1 8Bを上回る性能を達成し、高速推論と強力なベンチマーク結果を示す。 Geminiを活用した複雑な文章の簡素化 Geminiモデルを使用して文章の読みやすさを維持しつつ簡素化するシステムが開発。 AIエージェントがウェブユーザー体験と開発を変革 AIエージェントがウェブ上の自動化インタラクションとコンテンツ共有を可能にし、ユーザー体験と開発の未来を展望。 これらの見出しは、記事の核心的なメッセージを简洁かつ魅力的に伝え、技術マニアにもアピールするよう工夫しています。 | 人気の記事 | HyperAI超神経