IntelとFacebookが共同でCaffe2ライブラリのパフォーマンスを向上


私たちを取り巻く世界は日々、テキスト、グラフィック、マルチメディアなど、より多くの情報を生成しています。 近年、人工知能とディープラーニングテクノロジーは、人々がこの情報をよりよく理解し、音声、ビデオ、画像認識機能、および推奨機能を充実させるのに役立つ多くのアプリケーションを改善することができました。

過去1年間、Intelはいくつかの詳細な調査フレームワークにCPUハードウェアサポートを追加し、分析ベースのアプリケーションを最適化しました。 これらの最適化の基礎は、 Intel Math Kernel Library(Intel MKL)です 。これは、 Intel Advanced Vector Extension(Intel AVX-512)命令を使用して、ディープラーニング機能の拡張サポートを提供します。

Caffe2は、Facebookによって作成されたオープンソースの深層学習フレームワークであり、高速でモジュール式の実行が可能です。 Caffe2は、研究者が大規模な機械学習モデルをトレーニングし、モバイルデバイス向けのAIを開発できるように設計されています。

インテルとFacebookは、最適な出力パフォーマンスのためにCaffe2にインテルMKL機能を統合します。 次の表に、結論を得る速度を示します
インテルMKLおよびEigen BLASライブラリーを使用。 テーブルOMP_NUM_THREADSは、使用されている物理コアの数を示します。 結果は、プロセッサの観点からCaffe2を最適化できることを示しています。 小さい負荷パッケージの場合、各負荷に独自のプロセッサコアを使用し、それらを並列で実行することをお勧めします。
OMP_NUM_THREADS = 44OMP_NUM_THREADS = 1
パッケージサイズインテルMKL
(画像/秒)
固有BLAS
(画像/秒)
インテルMKL
(画像/秒)
固有BLAS
(画像/秒)
1173.45.228.65.1
321500.229.364.615.4
641596.335.366.015.5
2561735.244.967.316.2
今年初め、新世代のIntel Xeonプロセッサ(コードネームSkylake)が発売されました。 新しいSkylake製品の1つは、Intel AVX-512ベクトルセットの一部としての512ビットFMA(Fused Multiply Add)命令です。これは、トレーニングモデルと結論の計算の両方で、以前の256ビットAVX2命令と比較して大幅なパフォーマンス向上を提供します。 512ビットFMA機能は、FLOPSプロセッサで達成されるリーチを2倍にし、畳み込みおよびリカレントニューラルネットワークで使用される単精度マトリックス演算を大幅に加速します。 ピン数は十分に並列化されており、新しいプロセッサのコア数の増加から恩恵を受けます。 さらに、メモリ周波数とコアごとの中間レベルキャッシュ(MLC)キャッシュのサイズを増やすと、作業速度に有益な効果があります。


Source: https://habr.com/ru/post/J329682/


All Articles