👩🏻‍🤝‍👨🏾 👨🏼‍🍳 👩‍❤️‍👩 データサイエンティスト向けのAzure Machine Learning 👼🏾 🕺🏿 🌁

この記事は、コミュニティの友人であるクォンタムアートの開発者であるマイクロソフト認定プロフェッショナルであるDmitry Petukhovによって作成されました。
この記事は不正検出シリーズの一部であり、残りの記事はDmitryのプロフィールにあります。

Azure Machine Learningは、予測分析タスクを実行するためのクラウドサービスです。このサービスは、Webインターフェイスを介してアクセス可能な開発環境であるAzure ML StudioとAzure ML Webサービスの 2つのコンポーネントで表されます。
教師と学習アルゴリズムを使用してデータセット内のパターンを検索する際のデータ科学者の典型的な一連のアクションは、habracatで詳細に説明されています。

Azure ML Studioのプロジェクトは実験と呼ばれます。実験を作成して、上記のシーケンスの各ステップでAzure MLがデータスペシャリストに提供するツールのセットを見てみましょう。

データ検索

Readerコントロールを使用すると、構造化データセットと半構造化データセットの両方をロードできます。リレーショナルDBMS（Azure SQL Database）と非リレーショナルソース（NoSQL（Azure Table、Hiveへのクエリ）、ODataサービス）からのデータの読み込み、およびAzure Blob StorageとURL（httpプロトコルからのさまざまなテキスト形式のドキュメントのダウンロード）

手動のデータ入力も可能です（ データ制御の入力）。さまざまな形式のデータを変換するために、 データ形式会話セクションの要素が使用されます。次の出力形式を使用できます：CSV、TSV、ARFF、SVMLight。

データ準備

不完全なデータ/重複したデータ

一般的なケースでは、研究者は不完全なデータを扱います-トレーニングセットのデータには空の値があります。 欠損データの消去コントロールを使用すると、欠損データを含む行/列を削除し、欠損値を定数、平均、中央値、モードに置き換えることができます。
セットに重複データが含まれることは珍しくありません。これにより、将来のモデルの予測精度が大幅に低下する可能性があります。重複データを削除するには、 重複行の削除コントロールを使用します。

データマイニング

変換とデータクレンジング

特に、トレーニングセットのデータがさまざまなソース（ローカルCSV、分散ファイルシステム（HDFS）、Hive）から取得される場合、データ変換は多くの手動作業を必要とする段階の1つです。異種ソースへのクエリを均一に実行できるツールがないため、データ分析の専門家の作業が大幅に複雑になる可能性があります。

データをAzure MLに読み込んだ後、研究者は異種データソースへの統合アクセスの問題に直面することはありませんが、さまざまなソースから均一に取得したデータを処理します。操作セクションでは、内部/左/完全結合操作、プロジェクト、列の追加と削除、予測子によるデータのグループ化、ロードされたデータセットに対する任意のSQL変換（ SQL変換コントロールの適用）を実行できるコントロールを使用できます。

データセットの構造（メタデータ）を定義する

メタデータエディターコントロールを使用すると、特定の列に含まれるデータの種類（文字列、整数、タイムスタンプなど）を明示的に指定し、列の内容を予測子（ feature ）または応答（ label ）に属性化し、予測子スケールのタイプを指定することもできます： categorical）またはabsolute。

パターンと異常の存在

Azure ML Studioは、多数の統計分析ツール（ツールバーの[ 統計関数]セクション）を提供します。私が最もよく使用するものの1つは、記述統計コントロールです。これを使用すると、列に格納されている最小値（最小値）と最大値（最大値）、中央値（中央値）、算術平均（平均値）、第1（第1四分位）および第3（第3四分位）四分位数、標準偏差の情報を取得できます（標準偏差のサンプル）など

データセットの破壊

実験ごとに少なくとも1回教師とトレーニングアルゴリズムを使用する場合（一般的な場合）、データセットをトレーニングデータセットとテストデータ セットの 2つのサブセットに分割する必要があります。

肯定的な最終結果-正確なモデルの作成-トレーニングサンプルには、前例が取り得る値の可能な限り広い範囲を含めることが非常に重要です（言い換えると、トレーニングデータセットは、予測されたシステムが取りうる状態の可能な限り広い範囲をカバーする必要があります）。最高品質のトレーニングセットを取得するには、初期データを混合するための戦略が最も広く使用されています。

データセットを分割するタスクのために、Azure ML Studioは、いくつかのデータ分離戦略を実装し、各サブセットに分類されるデータの割合を指定できるSplitコントロールを使用します。

モデル構築

機能選択

予測子の選択（ Feature Selection ）は、結果のモデルの精度に大きな影響を与える段階です。モデル内のすべての重要な予測因子を特定すると同時に、モデルに多くの予測因子を追加しないようにするには、研究者は数理統計学の分野と研究の主題分野の両方の知識が必要です。

フィルターベースの機能選択コントロールを使用すると、ピアソン、スピアマン、ケンドール、またはその他の統計的手法に基づいて、ロードされたデータセット内の予測変数を特定できます。数学的手法を使用した予測変数の識別は、初期段階で受け入れ可能なモデルを迅速に作成するのに役立ちます。モデルの改良の最終段階では、多くの場合、予測領域の選択は調査対象地域の専門家の意見に基づいて実行されます。 Azure MLで予測子を明示的に（手動で）選択するには、 メタデータエディターツールを使用します。これにより、データセットの列が予測子と見なされるように指定できます。

フィーチャスケーリング/次元削減

一部の機械学習アルゴリズムは、予測子の値を正規化しないと正しく機能しません（ Feature Scaling ）。さらに、モデルで使用可能な変数/予測子の数を減らすと（ 次元削減 ）、トレーニングアルゴリズムの実行中のリソース使用率が向上し、モデルの再トレーニングを回避できます。これらの手法はどちらも、モデルを記述する目的関数の検索時間を短縮します。
この機能グループの要素は、Azure ML Studioツールバーの[ 縮尺と縮小]セクションにあります。

機械学習アルゴリズムの適用

Azure MLで機械学習アルゴリズムを適用するプロセスは、次の手順を実行します。
特定の機械学習アルゴリズムを使用したモデルの初期化 （サブセクション機械学習-> モデルの初期化 ）、
モデル トレーニング （機械学習-> トレーニング ）
トレーニングおよびテストサンプル用に取得したモデルの評価 （機械学習-> スコア ）
結果のアルゴリズムの評価 （機械学習-> 評価）。

Azure MLでは、 回帰、分類、およびクラスタリングアルゴリズムを使用できます。選択したアルゴリズムの主要なパラメーターを構成できます。マルチクラスニューラルネットワークアルゴリズムの場合、非表示ノードの数、トレーニングの反復回数、初期重み、正規化のタイプなどを指定できます。（すべての構成可能なパラメーターのリスト）。

2015年3月のアルゴリズムの完全なリストを以下の図に示します。

モデル評価

前述のように、Azure ML Studioでモデルを評価するために、ツールバーにはMachine Learning-> Scoreというサブセクションがあります。さらに、評価結果は、ヒストグラムの形式と統計指標の形式（最小、最大値、中央値、平均、数学的期待値など）の両方で利用できます。

Evaluate Modelコントロールには、正しく認識された良い例（ True Positive 、TP）、正しく認識された悪い例（ True Negative 、TN）、および認識エラー（ False Positive、False Negative ）を含む混同マトリックスが含まれています。

モデルのパフォーマンスの評価は、グラフ形式と、メトリックスの表形式（ 精度、精度、リコール、F1スコア）の両方で利用できます。

最大の（ただし唯一の）関心は、精度予測精度インジケータです。これは、セット内の要素の総数に対するすべての成功した予測の比率として計算されます： （TP + TN）/総数 。
残りのインジケータの意味は、次の図で明確に示されています。

精度の次に次に人気のある指標はAUC （Area Under Curve）です。 AUCは0〜1の範囲にあります。 0.5に近い値は、モデルがコインを投げた場合と同じ効率で動作し、コインの片側の損失に基づいてイベントがどのクラスに属するかを仮定したことを示します。 AUCが1に近いほど、モデルの精度は高くなります。各しきい値レベルには、独自のAUCスケジュールがあります。
Azure MLのアルゴリズムのパフォーマンスインジケーターの詳細については、こちらをご覧ください。

モデルを公開

Azure ML Studioで構築および計算されたモデルは、スケーラブルでフォールトトレラントなWebサービスとしてデプロイできます。

このサービスは、バッチモード（サービスからの非同期応答、SLA 99.9％）と低遅延の要求/応答モード（同期応答、SLA 99.95％）の2つのモードで動作します。
サービスは、httpsを介してアプリケーション/ json形式でメッセージを送受信します。サービスにアクセスするには、APIキーが発行されます-アクセスキーはリクエストヘッダーに含まれます。
サービスにアクセスできるエンドポイントを任意の数追加することができます。エンドポイントごとに、スロットルレベルを構成できます。これは確かにプラスです。欠点は、これらのレベルが2つ（高および低）しかないことであり、このレベルを手動で、たとえば10,240リクエスト/秒に設定する方法がないことです。もう1つの奇妙な点は、すべてのエンドポイントが同じAPIキーを持っていることです。

サービスを作成すると、サービスAPIドキュメントページが利用可能になります。サービスの一般的な説明に加えて、予想される入出力メッセージの形式の説明には、C＃、Python、およびRでサービスを呼び出す例も含まれています。
さらに、 Azure ML Galleryのコミュニティで成功したモデルをいつでも共有できます。AzureMLギャラリーには、すでに多くの興味深い実験があります。モデルのパブリックバリューが大きい場合は、SaaSアプリケーションMicrosoft Azure Marketplaceのストアでモデルへのアクセスを提供するサービスを公開する機会を利用してください。一方、Azure Marketplaceには、無料とサブスクリプションの両方で（たとえば、10Kリクエストごとに）利用可能な多数のデータサービスが既に含まれています。

短所

Azureクラウドプラットフォームの多くのサービスと同様に、Azure MLには、いくつかのレベル（層）のサービスプロビジョニングがあります。 Azure MLでは、これらは無料レベルと標準レベルです。無料の場合、費用は最小限（ほぼゼロ）で、サービスを初めて知っている人には最適です。 Standart層は、無料層にある人為的な制限のないエンタープライズ層です。したがって、さらにスタンダーティアについてのみ説明します。

以下にリストしたものが制限であるとは言いませんが、むしろ私にとって不明瞭なままでした。

Azure ML Experimentの軟膏で飛ぶ

Azure MLのドキュメントには、最大入力サイズ（GB）、Azure MLで利用可能な学習アルゴリズムの列（予測子）と行（ユースケース）の数に制限があるかどうか（およびその制限）の表示は見つかりませんでした。これらの制限が存在する場合、分析システムの設計におけるこの知識の重要性を過大評価することはほとんどできません。

Azure ML Webサービスの軟膏で飛ぶ

不明：1つのエンドポイント（エンドポイント）への同時リクエストの最大数とエンドポイントの最大数。合計で、ある場所で次の数字を見つけました（関連性については何も言えません）：エンドポイントあたり最大20の同時リクエスト、最大80のエンドポイント。米国中南部地域にあるAzure ML Webサービスの1つの呼び出し時間を確認しました（要求を送信するクライアントは同じDCにありました）。要求/応答サービスモードでの応答時間は約0.4秒です。
ここから、1秒あたり5K（20 * 80 * 1 / 0.4）を超える要求のパフォーマンスは、私の特定のケースでは、期待できないと計算できます。アプリケーションのスケーラビリティのこの制限も、設計時に考慮する必要があります。

そして最後に、各エンドポイントに個別に権限を設定する十分な能力がありません。ただし、各エンドポイントに対してこれらの権限を発行するには、個人エンドポイントAPIキー（またはその他の認証手段）が必要であり、この機能はAzure MLではまだ利用できません。

キラー機能（結論の代わりに）

何らかの理由でAzure ML Studioの組み込みツールの機能が十分でないことは注目に値します。研究者は、 R （クイックスタート）およびPython （クイックスタート）で書かれたプロジェクトで書かれたスクリプトを作成および実行できます。
そして彼らは、これはすべて無料で試すことができると言います。少し思われた方のために、ここにFreeとStandart Tierの価格を示します。

追加ソース

[0] Azure Machine Learning Studio 。
[1] 機械学習ドキュメント 。技術文書
[2] Microsoft Azure Machine Learningの開始 。 MVAの無料ビデオコース。
[3] 機械学習ブログ 。 Microsoftブログ

データサイエンティスト向けのAzure Machine Learning