10つのホットなデータ分析トレンドとすでに冷めた5つのトレンド

10つのホットなデータ分析トレンドとすでに冷めた5つのトレンド

ビッグデータ機械学習、データ・サイエンスのデータ分析革命は急速に進化しており、BA/BI(ビジネス・アナリティクス/インテリジェンス)専門家とデータ科学者は、最新の技術とデータ分析のための戦略を先取りしています。

データ・アナリティクスは急速にITの活力源になっています。大規模なデータ、機械学習、深層学習、データ・サイエンス、膨大な量のデータを分析するための技術と技術の範囲は急速に拡大しています。顧客の行動、システム・パフォーマンス、および新しい収益機会について深い洞察を得るためには、データ分析戦略は最新のデータ分析トレンドを最大限に活用することで大きなメリットがあります。

ここでは、データ・アナリティックスの技術、技術、戦略が盛り上がっていること、一気にデータ分析の傾向が冷え始めていることを紹介します。ビジネス・アナリストからデータ科学者に至るまで、データを扱うすべての人は、データ分析革命の影響を受けています。あなたの組織が実用的なインテリジェンスのためにデータ分析を活用しようとしている場合は、データ分析の傾向に関する次のヒート指数を参考にしてください。

ホットなトレンド: セルフサービスB/I

対象者:BI/BA専門家、マネージャー

Tableau、QlikSense、PowerBI、DomoなどのセルフサービスBIツールを使用すると、管理者は現在のビジネス情報をオンデマンドでグラフィカルな形で入手できます。ITによるいくつかのセットアップが最初に必要になることがありますが、データソースを追加する際には、データのクリーニングや分析の作成のほとんどがビジネス・アナリストによって実行され、分析は立ち上げ時にいつでも最新のデータから自動的に更新されます。
管理者は分析をグラフィカルに操作して対処する必要がある問題を特定することができます。BIによって生成されたダッシュボードまたは販売数に関する「ストーリー」では、不採算の店舗、営業員、および製品を見つけるためのドリルダウン、または前年度と同じ店舗比較の傾向を発見することを意味する場合があります。これらの発見は、今後の在庫量、製品の販売および宣伝、さらには店舗がないエリアの追加店舗建設についての決定を導く可能性があります。

ホットなトレンド:モバイル・ダッシュボード

対象者:BI/BA専門家、マネージャー、開発者

管理者がデスクにいることはめったにない世界では、管理ツールは便利で時間を節約できるモバイル対応のダッシュボードを提示する必要があります。ほとんどのセルフサービスBIツールはすでにこの機能を備えていますが、主要なビジネス・メトリックは必ずしもBIツールを経由するわけではありません。

例えば、製造工場は、すべての生産ラインを監視する専用のQAシステムを有する可能性が高く、すべての工場管理者は、イベントの数分以内にいずれかの回線が許容範囲外に逸脱しているかどうかを知る必要があります。これは、1分ごとにQAデータベースを照会し、シューハート管理図を更新して表示し、オプションでラインが仕様外になったときにアラームを鳴らすアプリで簡単に行えます。

冷めたトレンド:Hadoop

対象者:データ科学者

Hadoopは、「かなり大きなデータをどのように保存して処理すればよいか」という質問に対する回答のように思えましたが、「あなたは維持できなくなる前に、いくつの可動部品をシステムに詰め込むことができますか?」

ApacheHadoopプロジェクトには、HadoopCommon(ユーティリティ)、HadoopDistributedFileSystem(HDFS)、HadoopYARN(スケジューラ)、HadoopMapReduce(並列処理)の4つのモジュールが含まれています。Ambari(クラスタ管理)、Avro(データ直列化)、Cassandra(マルチ・マスター・データベース)、Chukwa(データ収集)、HBase(分散データベース)、Hive(データ・ウェアハウス)、Mahout(MLとデータ・マイニング)、Pig(実行フレームワーク)、Spark(計算エンジン)、Tez(MapReduceに代わるデータフロー・プログラミング・フレームワーク)、ZooKeeper(コーディネーションサービス)などの関連プロジェクトの1つ以上を使用することがよくあります。

まだ複雑だと思いませんか?、ApacheStorm(ストリーム処理)とKafka(メッセージ転送)を考慮してください。Amazon(ElasticMapReduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR、SAPAltiscaleなど、ベンダーによって追加された価値を考えてみましょう。もう混乱しましたか?

ホットなトレンド:R言語

対象者:統計に強いデータ科学者

データ科学者には、統計的方法を使用してデータを分析する多くのオプションがあります。最も便利で強力な方法の1つは、無料のRプログラミング言語を使用することです。Rは、スプレッドシートとは異なり、Rスクリプトを監査して簡単に再実行できるため、再現性の高い高品質の分析を作成するための最良の方法の1つです。R言語とそのパッケージリポジトリは、テクニックが存在する場合、おそらくRパッケージに実装されるという点で、広範な統計的手法、データ操作、プロットを提供します。Rは、現在Rが提供しているよりも高性能のコンピューティングを必要とするディープ・ニューラル・ネットワークの第一選択肢ではないかもしれないが、機械学習のサポートにおいてはほぼ同じほど強力です。

Rは無料のオープンソースとして入手可能で、MicrosoftAzureMachineLearningStudioやSQLServer2016などの数多くの製品に組み込まれています。

ホットなトレンド:ディープ・ニューラル・ネットワーク

対象者:データ科学者

最も強力な深部学習アルゴリズムのいくつかは、交互の線形および非線形処理ユニットの多くの層(したがって「深い」という用語)から構築されたニューラル・ネットワークである深部神経回路網(DNN)そして大規模なアルゴリズムと大量のトレーニングデータを使用して訓練されています。深いニューラル・ネットワークは、10〜20の隠れ層を持ちますが、典型的なニューラル・ネットワークは、わずかしかないことがあります。

ネットワークの層が増えるほど、認識できる特性が増えます。残念ながら、ネットワーク内のレイヤーが多いほど、計算に時間がかかり、トレーニングが難しくなります。ディープニューラルネットワークを作成するためのパッケージには、Caffe、Microsoft認知ツールキット、MXNet、Neon、TensorFlow、Theano、Torchなどがあります。

冷めたトレンド:IoT

対象者:BI/BA専門家,データ科学者

モノのインターネットI(IoT)はこれまでにない最も誇張された技術のセットです。それはまた、インターネットのセキュリティーに起こった最悪の事でもあります。

IoTは、スマートホーム、ウェアラブル、スマートシティスマートグリッド、インダストリアルインターネット、接続された車両、接続された健康、スマートな小売業、農業、およびその他のシナリオのために宣伝されています。これらのアプリケーションの多くは、もし実装が安全であれば良いですが、全体的に見るとそうではありません。

実際、製造元はしばしば基本的な設計ミスを犯しました。場合によっては、スマートデバイスは、インターネットに接続され、メーカーのサーバーに接続できる場合にのみ機能します。SonyDashとNest初期の温度計で起こったように、製造元が製品サポートを終了すると、それは大きな障害になります。遠隔のインターネットに接続されたサーバーを制御ループに含めることは、制御ループに重大かつ可変の遅れを導入し、不安定になる可能性があります。

さらに悪いことに、彼らの「モノ」をインターネットに接続しようと急いでいる中で、メーカーはハッカーによって悪用された脆弱性をあからさまにしています。自動車は遠隔地に引き継がれ、家庭のルーターはDDoS攻撃を行うボットネットに加入しており、公共の電力網はいくつかの地域でダウンしています。

IoTデバイスを安全にするためには何が必要でしょうか?なぜメーカーは注意を払っていないのでしょうか?

セキュリティー問題を対処するまで、IoTのデータ分析の約束は報酬よりもリスクになります。

ホットなトレンド:TensorFlow(テンサーフロウ)

データ科学者

TensorFlowは、Googleのオープン・ソースマシン学習およびニューラル・ネットワーク・ライブラリーであり、Googleの応用機械学習サービスのすべてではないにしても、そのほとんどを支えています。翻訳、地図、Googleアプリはすべてスマートフォンで動作するTensorFlowベースのニューラルネットワークを使用しています。TensorFlowモデルは、GoogleCloudNaturalLanguage、Speech、Translate、およびVision用の応用機械学習APIの背後にあります。

データの科学者は、フレームワークの学習の大きな障壁を乗り越えることができれば、TensorFlowを使用できます。TensorFlowは、柔軟性、真の移植性、研究と生産を結びつける能力、変数の自動差別化、CPU上でGPUに優先順位をつけてパフォーマンスを最大化する能力を備えています。私のチュートリアルでデータ科学者を指導するか、簡単なTensor2Tensorライブラリーを調べて始めましょう。

ホットなトレンド:MXNet

対象者:データ科学者

MXNet(「mix-net」と発音)は、TensorFlowに似た深層学習フレームワークです。TensorFlowでは視覚的なデバッグができませんが、TensorFlowには欠けているTensor計算に不可欠な言語が用意されています。MXNetプラットフォームは、シンボル処理と命令処理を自動的に並列処理し、そのスケジューラーの上にあるグラフ最適化レイヤは、シンボリック実行を高速かつメモリ効率的にします。

MXNetは現在、Python、R、Scala、Julia、およびC++でビルドとトレーニングのモデルをサポートしています。トレーニングを受けたMXNetモデルはMatlabとJavaScriptの予測にも使用できます。モデルを構築するためにどの言語を使用しても、MXNetは最適化されたC++バックエンドエンジンを呼び出します。

冷めたトレンド:バッチ分析

対象者:BI/BA専門家、データ科学者

データを分析するために夜間にバッチジョブを実行するのは、データが9トラックのテープに保存され、「メインフレーム」が第3シフトのバッチモードに切り替えられた1970年代のことでした。2017年には、1日のデータを解決する正当な理由はありません。

場合によっては、1つまたは複数のレガシーシステム(場合によっては1960年代までさかのぼります)は、使用されていない夜間のみ分析を実行したり、データをバックアップしたりすることができます。他のケースでは、バッチ分析を実行する技術的な理由はありませんが、「これはいつも行ってきた方法です」

あなたはそれよりも優れており、あなたの経営陣は最新のデータ分析を受ける価値があります。

ホットなトレンド:MicrosoftCognitiveToolkit2.0

対象者:データ科学者

CNTK2.0とも呼ばれるMicrosoftCognitiveToolkitは、有向グラフによる一連の計算ステップとしてニューラル・ネットワークを記述する統一された深層学習ツールキットです。TensorFlowとMXNetには多くの類似点がありますが、マイクロソフトはCNTKがTensorFlowよりも速く、特にリカレント・ネットワークであると主張しています。アプリケーションに統合しやすい推論サポートを備えています。

過去10年間のコンテスト優勝モデルのほとんどを含め、モデルギャラリーには現在約60のサンプルがあります。CognitiveToolkitは、MicrosoftCortana、Skypeライブ・トランスレーション、Bing、および一部のXbox機能の基礎となる技術です。

ホットなトレンド:Scikit-learn

対象者:データ科学者

Scikitsは、サイエンス・コンピューティングのためのPythonライブラリーであるSciPyの周りに構築されたPythonベースの科学ツール・ボックスです。Scikit-learnは、機械学習に焦点を当てたオープン・ソース・プロジェクトであり、スコープのクリープを回避し、証明されていないアルゴリズムに飛びつくことに注意しています。一方、それは固いアルゴリズムのかなり良い選択肢を持っています。そして、内部ループのような高速である必要がある機能のためにCython(PythonからCコンパイラ)を使用します。

Scikit学習でカバーしない領域は、深層学習、強化学習、グラフィカルモデル、およびシーケンス予測になります。それはPythonの中に定義されているので、他の言語用のAPIはありません。Scikit-learnはPythonをサポートしていません。PyPyはPythonの実装を高速でコンパイルしたり、GPUアクセラレーションをサポートしていません。

Scikit-learnは、私がテストしたすべての機械学習フレームワークの中で、開発の容易さの点で最高の評価を得ています。アルゴリズムは宣伝され、文書化されたとおりに動作し、APIは一貫性があり、うまく設計されており、データ構造間の「インピーダンスのミスマッチ」はほとんどありません。機能が完全に融合され、バグが徹底的に排除されたライブラリーで仕事をするのは喜ばしいことです。

冷めたトレンド:Caffe

対象者:データ科学者

もともと画像分類のための強力なフレームワークである、有望なカフェ・ディープ・ラーニング・プロジェクトは、失望しているようです。このフレームワークは、画像認識、CUDAGPUへの優れたサポート、適切な移植性のための強力な畳み込みネットワークを持っていますが、そのモデルはたびたび過度に大量のGPUメモリを必要とし、ソフトウェアは年齢のバグを修正していません。そのドキュメントは良くても問題があります。

Caffeは、バグ・リリース候補に1年以上かけて、2017年4月に最終的に1.0リリース・マークに達しました。それでも、2017年7月現在、500を超える未解決の問題があります。外部の人が、深層学習コミュニティがTensorFlow、CNTK、およびMXNetに移っている間に、プロジェクトが停止したという印象を受けるかもしれません。

ホットなトレンド:Jupyterノート

対象者:データ科学者

元々IPythonNotebookと呼ばれていたJupyterNotebookは、データの科学者がライブコード、方程式、視覚化、説明文を含む文書を作成して共有できるオープン・ソースのWebアプリケーションです。用途には、データの消去と変換、数値シミュレーション、統計モデリング、機械学習などがあります。

Jupyterノートブックは、多くのデータ科学者とML研究者の好ましい開発環境となっています。Azure、Databricks、および機械学習や大規模データを含むその他のオンライン・サービスの標準コンポーネントであり、ローカルで実行することもできます。「Jupyter」は、データ分析のための一般的な言語の3つとノートブック・カーネルの最初のターゲットであるJulia、Python、R、を意味する緩やかな頭字語ですが、最近では約80言語のJupyterカーネルがあります。

ホットなトレンド:クラウド・ストレージと分析

対象者:BI/BA専門家、データ科学者

効率的な分析を行う上で重要なことの1つは、「データが存在するコンピューティングを実行する」ことです。このルールに従わない、または従うことができない場合、データがローカルネットワークを越えて移動すると、それがインターネット上を移動する場合の遅延が大きくなります。そのため、たとえばMicrosoftが最近SQLServerにRサポートを追加したのです。

あなたの会社によって生成されるデータの量が急激に増加すると、データセンターの容量では不十分で、クラウドストレージを追加する必要があります。データがクラウドに入ったら、分析する必要があります。最終的にはほとんどの新しいプロジェクトがクラウドに実装され、既存のプロジェクトはクラウドに移行され、貴社はCapExからOpExの世界に移行します。

冷めたトレンド:月間BIレポート

対象者:BI/BA専門家、データ科学者

セルフサービスのビジネス・インテリジェンスが普及する前は、BIはITの分野でした。マネージャーは、見たいと思ったことを説明し、ビジネス・アナリストはそれを仕様に変え、BIスペシャリストは仕様を満たすレポートを作成しました。レポートが定義されると、それは月ごとに基本的に永遠に実行され、すべての可能なレポートの印刷物が月の初めに管理者の受信トレイに入れられ、会議で議論され、最終的には行動したり無視されたりしました。

場合によっては、既存のレポートによって提起された質問に答えるために、新しいレポートを定義することがあります。サイクル全体が始まり、新しいレポートが毎月の印刷物に追加されます。

残念ながら、アジャイルになりたいビジネスは、環境や市場の変化に数か月で対応することはできません。質問をして回答を得るまでの時間は、数週間または数か月ではなく、数秒または数分で測定する必要があります。

元記事はこちらより: https://www.cio.com/article/3213189/analytics/10-hot-data-analytics-trends-and-5-going-cold.html

ブロックチェーンがソフトウェア業界のインフラストラクチャを向上させる。2018年〜2022年の市場価値、成長パターン、現... 世界のIoTに関するレポート公開中