ChatGPT Agentのテスト結果:8つのテストで1つだけほぼ完璧な結果 このタイトルは以下のように改訂しました: シンプルで簡潔にしました。 テクノロジーのマニアにとって魅力的で、十分な情報量を含むようにしました。 ニューズ本来の意図を表現し、誇張や誤解を招く表現を避けています。 ニュースタイトルらしさを意識しています。 ニュースのコアインフォメーションを正しく反映しています。 このタイトルは、ChatGPT Agentの性能と限界を端的に表現しており、テクノロジー関連のニュースサイトでも注目を集めるものになっています。
OpenAIが近日公開した新ツール「ChatGPT Agent」は、Deep ResearchとOperatorの機能を組み合わせており、実際のユーザーインターフェース要素を操作できる機能を有しています。現在、このツールは月額200ドルのProプランのサブスクリーバーのみが利用可能で、400回の操作ができるとされる一方、20ドルのPlusプランでは1日あたり40回の操作が提供されます。ZDNetのデイビッド・ゲヴィーツが、同ツールの性能をテストし、8つの異なる用途における詳細な結果を報告しました。 Amazonでの製品選択: デイビッドは、庭のセキュリティシステムのアップグレードに必要な道具を選ぶためにChatGPT Agentを使用しました。予算の範囲内や最高級のセットを求める指示に対し、Agentは一部有用な情報を提供しましたが、画像やリンクに誤りがあり、目的を十分には達成できませんでした。 Instacartでの卵価格比較: 21店舗で卵の価格を比較するように指示しましたが、近隣だけでなく遠方の店舗も含む結果となりました。価格比較は行われましたが、最も安い商品を選択せず、指示の精度に問題がありました。 PowerPointスライド作成: 既存のビットコイン投資記事を更新するために新しいスライドを作成するよう指示しました。Agentは全体的な構造を理解していましたが、グラフの拡大やフォントの再現など細かい部分で失敗しました。 記事の分類: 最近のアーカイブにある300記事を分類し、Spreadsheetとスライドを作成するよう指示しました。Agentはスクロールに苦労し、途中で停止し、期待されたデータを全て入手することができませんでした。 ビデオからテキスト抽出: YouTube動画から特定の部分のテキストを抽出するように指示しました。Agentは初回で部分的な成功を見せましたが、再指示が必要となり、時間がかかってしまいました。 リモートワークのトレンド分析プレゼンテーション作成: リモートワークに関するトレンド分析とプレゼンテーションを作成するように指示しました。Agentは良好に組織化された17枚のスライドを生成しましたが、グラフィックスの品質と正確性に問題がありました。 プレゼンテーションの正確性検証: 前の分析結果を検証するため、別のAgentセッションで指示しました。結果は大部分が未確認であり、AIの精度と一貫性に疑問が投げかけられました。 建設コードの分析: 佛ロリダ州パームベイでのフェンス設置に関する建築コードを分析するよう指示しました。Agentは短時間で詳細かつ正確な分析結果を提供し、有用な情報を得ることができました。 以上のような結果から、Agentは特定のシンプルなタスクでは優れた機能を発揮しますが、複雑さが増すと信頼性と正確性が低下する傾向が見られました。デイビッドは、現時点ではProプランに値するほどの性能はないと評価していますが、将来的には大幅な改善が期待されます。 この記事の著者であるゲヴィーツによると、OpenAIが提供するChatGPT Agentは、AIの将来性を示す興味深い技術ですが、未熟な部分が多く、現在の段階では慎重な利用が必要だと指摘されています。ZDNetは今後もAIテクノロジーの進展を追っていきます。