😱 😹 🚵🏻 Hadoop 3.0：新機能の概要 🌄 👨🏾 🚣

Apache Software Foundationは、分散プログラムを開発および実行するためのオープンソースフレームワークの新しいバージョン、Hadoop 3.0のリリースを発表しました。これは、2013年のHadoop 2のリリース以来の最初のメジャーリリースです。 Hadoop 3.0の新機能のいくつかと、今後のバージョンで提供されるものについて詳しく説明します。

/写真クリスフェザー CC

新機能

HDFSの消去コーディング

これは、主にオブジェクトストレージで使用されるデータ保護方法です。これで、Hadoop は異なるクラスターにデータの3つのコピーを保存しなくなりました。代わりに、RAID 5または6に似たデータの断片化方法が使用され、レプリケーションの効率が向上したため、ストレージ効率が50％向上しました。

Hortonworksのアップデート開発者およびCTOの1人であるVinod Kumar Vavilapalli氏は、Erasure Codingを追加した理由は、ビッグデータクラスターの企業が保存するデータ量の増加にあると述べました。この新機能により、ストレージをより効率的に管理し、Hadoopクラスターの機能を最大限に活用できます。

糸の連合

Vavilapalliによると、最初はYARNは1万ノードのみにスケーリングされました。そのため、Microsoftの開発者はYARNフェデレーション機能を追加しました。これにより、YARNは40または10万のノードで動作することができます。

新しいタイプのリソース

Hadoop 3.0では、メモリとCPUに加えて、追加の種類のリソースを操作するための新しいフレームワークYARNが追加されています。また、更新により、ビッグデータクラスター内のディスクをより詳細に制御できます。将来的には、GPUおよびFPGAのサポートが追加されます。

Java 8

Hadoop 2はJava Developers Kit 7で実行されます。ApacheHadoop 3.0はJDK 8に移行します。Hadoop3.0に加えて、HBase 2.0、Hive 3.0、およびPhoenix 3.0でJDK 8のサポートが発表されました。

ロードマップ：Hadoop 3.1および3.2

開発者は、フレームワークの将来のバージョンで追加される機能について説明しました。主な機能を見てみましょう。

Hadoop 3.1

GPUサポート。 これにより、機械とディープラーニングの問題を解決する機会が顧客に与えられます。
Dockerコンテナーのサポート。 これにより、非ビッグデータワークロードをHadoopで実行できます。
糸サービス。 Kafkaデータストリームなど、「長い」ワークロードで作業する機会があります。

Hadoop 3.2

FPGAサポート。 FPGAはGPUよりも優れたパフォーマンスを発揮します。マイクロソフトはこれをすでに理解しており、FPGAを使用してディープラーニングを高速化します。 FPGAの実用的なアプリケーションの詳細については、こちらをご覧ください。
オゾン。 Vavilapalli は、HDFSは「一度記録され、何度も読み取られる」という形式で大きなファイルを保存するために「投獄される」と説明しています。また、写真やビデオなどの小さなファイルの保存には適していません。オゾンストレージはこの問題を解決します。

開発者は、Hadoop 3.1およびHadoop 3.2の更新を3か月の差でリリースする予定です。

Hadoop 3.0：新機能の概要

新機能