HyperAI

6ヶ月前

AI企業のAnthropicは、自社の新AIモデル「Claude Opus 4.5」が、同社のエンジニア採用用2時間の実技試験で、過去に受験したすべての人類応募者を上回ったと発表した。同社は、この試験が技術的実力と時間制限下での判断力を測る「極めて難易度の高い」課題であると説明。Claude Opus 4.5は、各問題に対して複数回の試行を行い、最も優れた回答を採用する方式で評価された。この試験は、応募者に特定のシステムの構築と機能拡張を命じる内容で、Glassdoorの2024年インタビュー評価では4段階の課題から構成されているとされている。ただし、Claude 4.5が実際に受験した試験の詳細は公表されておらず、同社も追加情報の提供を拒否している。 Claude Opus 4.5は、コード生成以外にも、ExcelシートやPowerPointプレゼンテーションの作成能力が強化されており、文書生成分野でも進化を遂げている。この進展により、AnthropicはAIによるコード生成分野で優位性を強化。同社のAIは、競合企業であるMetaの内部開発支援ツール「Devmate」でも採用されており、業界内での影響力が拡大している。 AnthropicのCEO、Dario Amodei氏は、同社の開発チームで90％のコードがClaudeによって生成されていると述べたが、AIがエンジニアを置き換えるものではないと強調。代わりに、人間エンジニアはAIの監視や、難易度の高い10％のコード作成、複数AIモデルの統合管理に注力する必要があると説明。同社の製品管理責任者Dianne Penn氏は、AIが自らコードを生成・デプロイし、その後人間とAIが共同でレビューを行うという開発プロセスが「概ね正確」と認めた。この事例は、AIが単なる補助ツールにとどまらず、開発プロセスの中心的役割を果たしつつあることを示唆しており、今後のエンジニアリングのあり方を再考する契機となっている。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

Command Palette

Claude Opus 4.5、エンジニア採用試験で人間を上回る性能を発揮

関連リンク

Command Palette

Claude Opus 4.5、エンジニア採用試験で人間を上回る性能を発揮

関連リンク

Command Palette

Claude Opus 4.5、エンジニア採用試験で人間を上回る性能を発揮

関連リンク

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要