見出し
おすすめリスト
情報
Dao Wei
超神経質で
「私たちは 2019 年にデータ サイエンス、機械学習、人工知能に関して 5 つの予測を立てました。また、昨年の予測を振り返り、どれが実際に起こったかを確認します。」
著者: ウィリアム・ヴォーヒズ
DataScienceCentral 編集ディレクター、Data-Magnum 社長兼チーフデータサイエンティスト、EB5C 会長。
予測 1: モデルの作成とデータの準備はさらに自動化されるでしょう。大規模なデータ サイエンスの運用が単一のプラットフォームに統合されます。少数のデータ サイエンティストだけで多くの仕事をこなすことができます。
ご想像のとおり、高度な分析プラットフォームでのエンドツーエンドの統合により、ノーコード データ サイエンスが増加しています。
予測 2: データ サイエンスは専門化に向けて発展し、「フルスタック」のデータ サイエンティストは存在しなくなります。
同じ推測です。現在、人々はデータサイエンティストよりもデータエンジニアに注目しています。データエンジニアのほうが実践的だからです。
予測 3: データ サイエンティスト以外の人々は、大量かつ複雑な分析を実行する能力がデータ サイエンティストよりも優れています。
これは本当です。 Data Viz と Visual Analytics の人気からわかるように、データ サイエンティスト以外の人々は、洗練されたデータ サイエンス ツールからより多くの価値を得ています。
予測4:ディープラーニングは難しい。この分野に熟練したデータサイエンティストは多くないため、深層学習プラットフォームがより合理化され製品化されない限り、人工知能の応用は制限されることになります。
Microsoft と Google は両方とも、転移学習から始まり、完全な AutoDL (自動機械学習) に移行する自動ディープ ラーニング プラットフォームを立ち上げました。統合された AutoDL プラットフォームもいくつかあります。たとえば、one clicks.ai には完全な AutoML および AutoDL プラットフォームがあります。 Gartner は最近、AutoDL プラットフォームを所有する DimensionalMechanics を「トレンド企業 5 社」の 1 社に指名しました。
予測 5: 誇大宣伝にもかかわらず、人工知能とディープラーニングの浸透、および市場への影響の広さと深さは満足のいくものではありません。
チャットボットの急速な発展とは別に、AI の用途は実際には非常に限られています。 AI は過大評価されており、実際の企業において AI や機械学習が実際に活用されている割合は非常に小さいです。
予測 6: 国民 (および政府) は、AI の社会的およびプライバシーへの影響を真剣に検討し始めるでしょう。
米国政府と欧州連合による最近の行動を見れば、カリフォルニア州の今後のプライバシー規制やオーストラリアの反暗号化声明など、これらの問題が真剣に受け止められていることがわかるでしょう。
当然のことながら、昨年の 6 つの予測はすべて正しかったのです。今年も一部の見解は依然として真実ですが、私たちはさらに具体的な予測と分析を試みています。
ディープラーニングと古典的な機械学習アルゴリズムに関しては、1 年以上大きな進歩がありません。 NLP の遅延を減らすために RNN を置き換えて、わずかに改良された時間畳み込みネットワーク (TCN) が使用されていますが、まったく革新的ではありません。優れたアルゴリズムは、すでによく知られているか、自動機械学習を使用して開発できます。
現時点では、大量の高品質なデータを保有することが企業のデジタル変革の鍵となります。これにより、一般に次のような方向性を含むデータ提供ソリューションの競争と機会も生まれています。
最初の方向は、正確にラベル付けされたトレーニング データを取得する方法です。データのラベル付けに取り組んでいる Figure Eight のような企業は、費用対効果の高いスマートな戦略を推進しています。たとえば、アクティブ ラーニングでは、データのラベル付けとモデルの精度の確保の間で最適な選択を行うことができます。
2 番目の方向は、サードパーティ データへのアクセスです。 DymstData のようなサービス会社は、さらに数百ものデータ プロバイダーのクリアリングハウスとしてこの分野に参入しています。また、機密の PII を保護する役割も担っており、ユーザーは特定の機密情報にアクセスするための役割を強制できます。これは金融サービスや医療サービスにおいて特に重要です。
3 番目の方向は、モデル内のデータの出所を自動的に追跡して記録することです。特に、複数のソースからのストリーミング データが統合され、リアルタイムで変化する場合、データのソースとその使用方法を知ることが重要です。 Tibco および他のいくつかの分析プラットフォームは、この機能を統合しています。
AI/ML スタートアップを見ると、競争が業界や特定のプログラムに向かってシフトしていることがわかります。これらのプログラム、つまりミニプラットフォームは、マーケティング、B2B 販売、ヘルスケア、フィンテック、その他の定義されたグループなど、さまざまなビジネスにおける業界固有の問題を解決することに重点を置いています。
これらの新しいアプリケーションは AI/ML の組み込みに重点を置いているため、企業が更新する際に大規模な社内データ サイエンティスト グループのサポートを必要とせず、これらの開発者のみに依存します。
これを AI/ML のコモディティ化と呼ぶ人もいますが、より正確には AI/ML の専門化です。
この変革は、1990 年代後半のプロセス変革 (リエンジニアリング) からエンタープライズ リソース プランニング (ERP) への移行に似ています。当時、リエンジニアリングでは、プロセスを改善するために複雑なカスタム開発の IT ソリューションを使用することが企業に求められ、Oracle、PeopleSoft、SAP などの企業が主に ERP と CRM を統合する道が開かれました。
新しいベンダーは、特定の市場で幅広いソリューションを提供することを目指していますが、必然的に小規模な ERP プラットフォームを使用することになります。
また、AI/ML の導入を加速するために、大規模なデータ サイエンス チームを持たない、またはカスタム開発モデルに全面的に依存している中規模および中小企業にも注目してください。
これは、世界がデータサイエンティストを諦めたということではありません。まだプロセスが必要です。しかし、特定のスキルが不足している場合、市場はさまざまな方法でそのギャップを埋めます。
これを実現する 1 つの方法は、多数の社内データ サイエンティストを必要としない、上で説明した業界およびプロセス固有のインテリジェンス アプリケーションを使用することです。
2 番目のアプローチは、急速に台頭している自動機械学習 (AML) プラットフォームです。これはデータ サイエンスにおいてより効率的であり、より少ないデータ サイエンティストで多くの作業を行うことができることを意味します。
モデルの数は減少するのではなく増加しているため、これにより、両方の分野のスキルを持つデータ エンジニアに負担が移ることになります。
まず、データ レイクや Spark インスタンスなど、データ サイエンスに必要なインフラストラクチャを作成できました。
2 つ目は、モデルを採用し、それらがオペレーティング システムに実装されていることを確認し、精度と更新を追跡することです。
データ エンジニアの中には、データ操作や、データ フローの確実なクリーニングと前処理を担当する人もいます。
分析プラットフォームのもう 1 つのトレンドは、ビジュアル分析およびデータ視覚化ツールの開発です。現在、これらのツールのほとんどはデータ サイエンス ツールセットと完全に統合されており、データ アナリストや LOB マネージャーがより多くの価値を引き出し、分析作業をガイドできるようになりました。彼らはデータ サイエンティストに取って代わるものではありませんが、チーム内で高度な分析が果たす役割を強化するでしょう。
これら 2 つの異なるテクノロジーは、長年の問題である遅延を解決するために、両方とも半成熟した状態にあります。
たとえば、モバイル デバイスを使用してテキストまたは画像の単語を翻訳したい場合、デバイスはその信号を翻訳クラウドで行われるアプリに送り返し、その後デバイスに送り返します。
Google やその他の即時翻訳サービスは、RNN から特殊な CNN 構造、つまり時間畳み込みネットワークに移行しました。RNN は MPP にうまく適応しませんが、CNN は適応するためです。この変換によりレイテンシは短縮されますが、信号はそのまま残ります。
この問題を解決するテクノロジーの 1 つが 5G ネットワークです。 5G が高速であることは誰もが知っていますが、その本当の利点は、より多くのトラフィックを伝送できることです。
2 番目の解決策は、新しいニューロモーフィック チップ (スパイキング ニューラル ネットワークとも呼ばれます) を導入することです。このニューラル ネットワーク アーキテクチャは、汎用人工知能 (AGI) を実現するための鍵となる可能性があります。しかし、少し時間がかかります。
現在、大手チップメーカーと一部の新興企業は、CNNとRNNに最適化されたスパイキングニューラルネットワーク用の特別なチップを開発しており、その一部は非常に低消費電力になるように最適化されています。
これらの機能を組み合わせることで、ディープ ラーニングがネットワークのエッジのチップに移行されます。今年からモノのインターネットやその他のストリーミング データ アプリケーションがどのように普及していくのか、楽しみに待ちましょう。
現在、テキスト、音声、画像、ビデオのモデルが主流に発展していますが、開発には依然として大きな障害があります。あるフレームワーク (Caffe2、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、TensorFlow など) で構築されたモデルは、別のフレームワークに簡単に移植できないためです。
幸いなことに、これはいくつかの革新的な取り組みにもつながりました。たとえば、AWS、Facebook、Microsoft によって構築された Open Neural Network Exchange (ONNX) プラットフォームを使用すると、モデルが異なるフレームワーク上で相互運用できます。
開発者、アプリケーション、デバイス間で共有されるモデルの数が増加するため、ONNX は今年の主要なテクノロジーとなるでしょう。
今年の予想です。来年振り返って、この分野が私が思っていたものとどう違うのかを知るのを待っているだけです。