Apache Software Foundationは、分散プログラムを開発および
実行するためのオープンソースフレームワークの新しいバージョン、Hadoop 3.0のリリースを
発表しました。 これは、2013年のHadoop 2のリリース以来の最初のメジャーリリースです。 Hadoop 3.0の新機能のいくつかと、今後のバージョンで提供されるものについて詳しく説明します。
/写真クリスフェザー CC新機能
HDFSの消去コーディング
これは
、主にオブジェクトストレージで使用されるデータ保護
方法です。 これで、Hadoop
は異なるクラスターにデータの3つのコピーを保存し
なくなりました 。 代わりに、RAID 5または6に似たデータの断片化方法が使用され、レプリケーションの効率が
向上したため 、ストレージ効率が50%
向上しました。
Hortonworksのアップデート開発者およびCTOの1人であるVinod Kumar Vavilapalli氏は、Erasure Codingを追加し
た理由は、ビッグデータクラスターの企業が保存するデータ量の増加にある
と述べました 。 この新機能により、ストレージをより効率的に管理し、Hadoopクラスターの機能を最大限に活用できます。
糸の連合
Vavilapalliによる
と 、最初はYARNは1万ノードのみにスケーリングされました。 そのため、Microsoftの開発者はYARNフェデレーション機能を追加しました。これにより、YARNは40または10万のノードで動作することができます。
新しいタイプのリソース
Hadoop 3.0では、メモリとCPUに加えて、追加の種類のリソースを操作するための新しいフレームワークYARNが追加されています。 また、更新により、ビッグデータクラスター内のディスクをより詳細に制御できます。 将来的には、GPUおよびFPGAのサポートが追加されます。
Java 8
Hadoop 2はJava Developers Kit 7で実行されます。ApacheHadoop 3.0はJDK 8に移行します。Hadoop3.0に加えて、HBase 2.0、Hive 3.0、およびPhoenix 3.0でJDK 8のサポートが発表されました。
ロードマップ:Hadoop 3.1および3.2
開発者は、フレームワークの将来のバージョンで追加される機能について説明しました。 主な機能を見てみましょう。
Hadoop 3.1
- GPUサポート。 これにより、機械とディープラーニングの問題を解決する機会が顧客に与えられます。
- Dockerコンテナーのサポート。 これにより、非ビッグデータワークロードをHadoopで実行できます。
- 糸サービス。 Kafkaデータストリームなど、「長い」ワークロードで作業する機会があります。
Hadoop 3.2
- FPGAサポート。 FPGAはGPUよりも優れたパフォーマンスを発揮します。 マイクロソフトはこれをすでに理解しており、FPGAを使用してディープラーニングを高速化します。 FPGAの実用的なアプリケーションの詳細については、 こちらをご覧ください 。
- オゾン。 Vavilapalli は 、HDFSは「一度記録され、何度も読み取られる」という形式で大きなファイルを保存するために「投獄される」と説明しています。 また、写真やビデオなどの小さなファイルの保存には適していません。 オゾンストレージはこの問題を解決します。
開発者は、Hadoop 3.1およびHadoop 3.2の更新を3か月の差でリリースする
予定です。
PS最初の企業IaaSブログのその他の資料: