私たちを取り巻く世界は日々、テキスト、グラフィック、マルチメディアなど、より多くの情報を生成しています。 近年、人工知能とディープラーニングテクノロジーは、人々がこの情報をよりよく理解し、音声、ビデオ、画像認識機能、および推奨機能を充実させるのに役立つ多くのアプリケーションを改善することができました。
過去1年間、Intelはいくつかの詳細な調査フレームワークにCPUハードウェアサポートを追加し、分析ベースのアプリケーションを最適化しました。 これらの最適化の基礎は、
Intel Math Kernel Library(Intel MKL)です 。これは、
Intel Advanced Vector Extension(Intel AVX-512)命令を使用して、ディープラーニング機能の拡張サポートを提供します。
Caffe2は、Facebookによって作成されたオープンソースの深層学習フレームワークであり、高速でモジュール式の実行が可能です。 Caffe2は、研究者が大規模な機械学習モデルをトレーニングし、モバイルデバイス向けのAIを開発できるように設計されています。
インテルとFacebookは、最適な出力パフォーマンスのためにCaffe2にインテルMKL機能を統合します。 次の表に、結論を得る速度を示します
インテルMKLおよびEigen BLASライブラリーを使用。 テーブルOMP_NUM_THREADSは、使用されている物理コアの数を示します。 結果は、プロセッサの観点からCaffe2を最適化できることを示しています。 小さい負荷パッケージの場合、各負荷に独自のプロセッサコアを使用し、それらを並列で実行することをお勧めします。
| OMP_NUM_THREADS = 44 | OMP_NUM_THREADS = 1 |
---|
パッケージサイズ | インテルMKL (画像/秒) | 固有BLAS (画像/秒) | インテルMKL (画像/秒) | 固有BLAS (画像/秒) |
1 | 173.4 | 5.2 | 28.6 | 5.1 |
32 | 1500.2 | 29.3 | 64.6 | 15.4 |
64 | 1596.3 | 35.3 | 66.0 | 15.5 |
256 | 1735.2 | 44.9 | 67.3 | 16.2 |
今年初め、新世代のIntel Xeonプロセッサ(コードネームSkylake)が発売されました。 新しいSkylake製品の1つは、Intel AVX-512ベクトルセットの一部としての512ビットFMA(Fused Multiply Add)命令です。これは、トレーニングモデルと結論の計算の両方で、以前の256ビットAVX2命令と比較して大幅なパフォーマンス向上を提供します。 512ビットFMA機能は、FLOPSプロセッサで達成されるリーチを2倍にし、畳み込みおよびリカレントニューラルネットワークで使用される単精度マトリックス演算を大幅に加速します。 ピン数は十分に並列化されており、新しいプロセッサのコア数の増加から恩恵を受けます。 さらに、メモリ周波数とコアごとの中間レベルキャッシュ(MLC)キャッシュのサイズを増やすと、作業速度に有益な効果があります。