👪 🏪 ☠️ CNTKを選ぶ理由 💩 🤶🏿 💇🏿

こんにちは、Habr！私の名前はジェンヤです。私がキャリアを始めたとき、私はデータサイエンティストでしたが、それは主流ではありませんでした。その後、彼は純粋なT-SQL開発に切り替え、最終的にビジネスインテリジェンスへと発展しました。現在、私はデータプラットフォームに重点を置いたMicrosoftのテクノロジーエバンジェリストですが、これはDockerコンテナーやMixed Realityなど、暇なときに他のクールなトピックを行うことを妨げるものではありません。

最近、私はパートナーの1人と話をしましたが、HabréでのCNTKの利点についてほとんど話さない理由を尋ねられました。最初は、会社のブログの記事や同じ会社の製品の利点よりも一般的なことを考えました。しかし、彼らはそれが素晴らしいと判断し、あなたの意見を見つけてチャットすることができました。 CNTKとTensorFlowのトピックに興味のあるすべての人をcatに招待します。

Microsoft Cognitive Toolkit（CNTK）は、無料のオープンソース、オープンソースの学習ツールキットです。 GitHubのスターを基準にすると、今日ではTensorFlowとCaffeに次いでディープラーニング向けの3番目に人気のある特殊なパッケージであり、MxNet、Theano、Torchなどのプラットフォームが残されています。

免責事項！ この記事は唯一の真実であると主張しているわけではありませんが、CNTKの重要な特徴を明らかにしています。コメントでご意見をお聞かせください。

CNTKとTensorFlow：ショート

それでは、ポイントに行きましょう。 CNTKとTensorFlowの違いは何ですか：

スピード。 CNTK全体はTensorFlowよりも高速であり、リカレントネットワークでは最大5〜10倍のパフォーマンス向上を実現します。
正確さ。 これまで、CNTKは深層学習モデルを教えるための最高の精度を備えています。
API構造。 CNTKにはC ++向けの柔軟で強力なAPIがあり、関数型プログラミングパラダイムに基づいて低レベルで使いやすい高レベルのPython APIを提供します。
スケーラビリティ。 CNTKは簡単にスケーラブルであり、計算負荷の高いタスクの場合、少なくとも数千のGPUで実行できます。
得点。 CNTKには、C ++ 、. NET、Java、およびPython用の強力なEval APIがあり、アプリケーションでのニューラルネットワークの統合を簡素化します。
拡張性。 CNTKは、Pythonを使用して独自のレイヤーとトレーニング手順を定義できるため、簡単に拡張できます。
組み込みの読み取りモジュール。 CNTKには、分散学習をサポートするメモリフレンドリーな組み込みデータリーダーがあります。

前の短い議論で疑問や疑問が生じた場合は、それぞれについて詳しく説明します。

CNTKとTensorFlow：詳細

スピード

ディープラーニングでは、膨大な量のデータが処理されるため、大量の計算リソースが必要になります。アプリケーションを開発している場合、または科学記事を準備している場合、成功は実験の速度に大きく依存します。

HKBUの調査とこの記事の結果は、テストされたすべてのネットワークで、CNTKがCPUとGPUの両方に関してTensorFlowと同等のパフォーマンスを提供することを示しました。実際、GPUでの起動のみを考慮すると、CNTKはテストされたすべてのパッケージの中で最高の結果を示しました。

画像を操作する場合、CNTKは通常、TensorFlowと比較して2〜3倍のパフォーマンス向上を提供します。リカレントニューラルネットワークに関しては、ここでCNTKは議論の余地のないリーダーです（ 上記の記事で述べたように、CPUで起動すると、「CNTKはTorchおよびTensorFlowよりもはるかに優れたパフォーマンス（最大5〜10倍）を示します」 ）。また、GPUで実行した場合、「CNTKは他のツールよりも桁違いに優れた結果を示しました。」

勝利のスピードは、単に状況をうまく組み合わせた結果ではありません。 CNTKはもともとMicrosoft Researchの音声認識の専門家チームによって開発され、シーケンス処理用に最適化されています。たとえば、40億を超える例のトレーニングサンプルで自然言語認識モデルを構築するために使用されます。

たとえば、音声認識、自然言語の理解、機械翻訳などのプロジェクトでシーケンス処理を使用する場合、パフォーマンスの観点からCNTKが最適な選択になります。また、ビデオ処理とパターン認識に関与している場合は、CNTKを試してください。

精度

ディープラーニングのトピックを理解していれば、おそらくツールキットの開発がどれほど難しいか知っているでしょう。ツールキットコードのエラーは目立たないことが判明し、多くの場合、非常に効率的なモデルの受信をブロックしません。ただし、このようなエラーでは、多くの場合、ネットワークアーキテクチャの全機能を明らかにできず、結果を人為的に過小評価しています。そのため、CNTKの開発に携わっている同僚は、エラーを特定することに細心の注意を払い、ツールを使用してモデルをゼロからトレーニングし、最高の精度を実現できるようにします。

例は、Googleの複数の研究者によって開発されたInception V3ネットワークのストーリーです。 TensorFlowの専門家は、Inception V3トレーニングスクリプトと、ダウンロードおよび検証用の事前トレーニングモデルを提案しています。ただし、モデルを最初から再トレーニングし、同様の精度を達成することはできませんでした。これには、予備データ処理などの追加情報が必要だったためです。サードパーティ（この場合はKeras）によって達成される最大精度は、開発者が記事で示したものよりも約0.6％低くなります。実験の結果、CNTKチームの研究者は、最大誤差5.972％でCNTK Inception V3モデルをトレーニングすることができました。これは、元の記事に示されている数値よりもさらに優れていることが判明しました。この結果は自分で確認できます。トレーニングスクリプトはGitHubで入手できます。

さらに、CNTK自動バッチ処理アルゴリズムにより、さまざまな長さのシーケンスをパッケージ化し、リカレントニューラルネットワークの高い実行効率を実現できます。さらに、トレーニングデータのランダム化が向上し、他の方法に基づくデータパッケージと比較して精度が1〜2％向上することがよくあります。このアプローチのおかげで、Microsoft Researchの研究者は初めて、コンピューターが人よりも悪くない音声を認識するようになりました。

API構造

最初から、既成モデルのスコアリングだけがアプリケーションの不可欠な部分ではないことを想定しました。学習ツールは、OfficeやWindowsなどのスマートアプリケーションに緊密に統合することもできます。ほとんどすべてのCNTK機能はC ++で記述されています。これにより、パフォーマンスが向上するだけでなく、C ++ APIとしても使用でき、あらゆるアプリケーションに統合できます。さらに、Python、Java、.NETなどのバインディングを簡単に追加できます。

また、CNTKのPython APIには低レベルおよび高レベルの実装があることに注意してください。高レベルのPython APIは、関数型プログラミングのパラダイムに基づいており、非常にコンパクトで直感的です。これは、リカレントニューラルネットワークで作業する場合に特に顕著です。これは、ほとんどの専門家が「低すぎる」と考えるTensorFlowのPython APIとの主な違いです。

拡張性

今日のディープラーニングの課題の一部として、数十億の学習例が適用されています。したがって、複数のGPUと複数のコンピューターで実行する機能を実現する必要があります。多くのツールキットは複数のGPUで動作しますが、1台のコンピューターでのみ動作します。マシンの数を増やしてスケーリングすることは可能ですが、その実装には、多くの場合、かなりの努力が必要になります。

対照的に、CNTKは、分散学習の概念を中核に設計されました。単一のGPUでのトレーニングから複数のコンピューターで複数のGPUを使用した構成への切り替えは非常に簡単です。これらは、CNTKリポジトリからの例から明らかなように、ほんの数行のコードです。マイクロソフトの研究者は、数百のGPUと複数のコンピューターでCNTKタスクトレーニングを開始しました。さらに、いくつかの非常に効果的な並列学習スキームがフレームワークに含まれています： 1ビットSGDおよびブロック運動量SGD 。これらのアルゴリズムはハイパーパラメーターの設定を大幅に最適化し、より良いモデルの準備を加速しました。その結果、たとえば、Microsoft Researchの専門家は、自然言語認識の品質を大幅に改善し、交換機の電話会話のテストサンプルの人を上回りました。

得点

TensorFlowは、優れたスコアリング機能を提供します。プラットフォームはモデルのいくつかのバージョンをサポートし、実行に最適化された形式で保存します。同じモデル内でさまざまなメタグラフを使用すると、さまざまなタイプのデバイスがサポートされます。さらに、XLA AoTコンパイルのおかげで、TensorFlowはモデルを実行可能ファイルに変換できます。これにより、モバイルおよび組み込みデバイスのモデルのサイズが大幅に削減され、遅延が最小限に抑えられます。

TensorFlowとは異なり、CNTKはCNTK Evalをユーザーアプリケーションに直接統合することに重点を置いています。 PythonおよびC ++に加えて、CNTKはスコアリング用にC＃/。NETおよびJavaをサポートします。これらのAPIは同じC ++ APIに基づいているため、使用時に同じレベルのパフォーマンスを得ることができます。 .NETアプリケーションを構築していて、ディープラーニングとデータマイニングのためのツールセットを選択する場合は、CNTKがより便利なオプションです。

CNTKは訓練されたモデルの並列使用をサポートし、このシナリオでのメモリ負荷は大幅に増加しません。これにより、たとえば、WebアプリケーションやREST APIでモデルをサービスとして展開する絶好の機会が開かれます。 CNTKは、IntelまたはARMベースの周辺機器への展開もサポートしています。

拡張性

TensorFlowは、ほとんどすべてのモデルを実装できる非常に柔軟なツールキットです。ただし、現在Caffeを使用している場合、簡単に既存のスクリプトをTensorFlowスクリプトに変換すると失敗します。すべてをゼロから書き直さなければなりません。同様に、別の開発者が別のツールセットを使用して作成した新しいレイヤーを試すには、自分で実装する必要があります。

このような背景に対して、CNTKは高度に拡張可能なツールボックスと呼ぶことができます。 UserFunctions抽象化により、Pythonを使用して任意の演算子を実装できます。 NumPy配列をCNTKと拡張機能の仲介として使用すると、直接パスと逆パスを実装するだけで、その後、新しく作成されたステートメントをすぐにネットワーク構造に含めることができます。さらに、多くの場合、別のツールセットのグラフをCNTK UserFunctionに直接配置できるため、プロジェクトの移植が大幅に加速され、CNTK独自の機能を使用できます。

これは、重みの勾配更新手順にも適用されます。 RMSPropやAdamなどのほとんどのアルゴリズムには既にCNTKが付属していますが、純粋なPythonを使用して新しい学習アプローチを実装できます。

統合リーダーモジュール

明らかな事実です。トレーニングデータが多いほど、より良い結果が得られます。状況によっては、データ量が大きすぎてRAMに収まらない場合があり、1台のコンピューターに十分なリソースがない場合があります。データがRAMに配置されている場合でも、RAMからGPUにデータを転送するために学習サイクルに時間がかかりすぎることがよくあります。

CNTKの組み込み読み出しモジュールは、RAMに配置せずにデータ収集の非常に効率的な反復機能を提供することにより、上記の問題を解決します。単一のドライブまたはHDFSなどの分散ファイルシステムで作業できます。プリフェッチの広範な使用により、GPUのダウンタイムがなくなります。また、CNTKリーダーは、基礎となるデータセットが順序付けられている場合でも、モデルが常に適切に混合された方法でデータを受信するようにします（これにより収束が向上します）。最後に、これらの機能はすべて、現在の読者とユーザーの読者の両方が利用できます。独自のカスタム形式のリーダーを作成している場合でも、プリフェッチ手順の実装について心配する必要はありません。

結論として、この記事の下であなたのコメントを聞いて、CNTKを最もクールで便利なディープラーニングツールにするためのプルリクエストを一緒に受け取ることができてうれしいです。

追伸この記事を説明してくれたKonstantin Kichinsky（ Quantum Quintum ）に感謝します。

CNTKを選ぶ理由

CNTKとTensorFlow：ショート

CNTKとTensorFlow：詳細

スピード

精度

API構造

拡張性

得点

拡張性

統合リーダーモジュール

More articles: