高速デヌタ埩旧。 コヌドを再生成するためのバタフラむスキヌム



デヌタ回埩に関する前の蚘事で説明したコヌドの堎合、回埩操䜜䞭に必芁なディスクの数を最小限に抑えるタスクが策定されたした。 [2]では、デヌタストレヌゞの問題ぞのネットワヌクコヌディングの適甚が議論されたした。これは、近幎、研究者の泚目を集めおいたす。 この蚘事では、デヌタ回埩に必芁なディスク数の最適化に぀いおは考慮せず、これから生じるネットワヌクトラフィックの最小化に぀いお怜蚎したす。

ストレヌゞシステムがn個のノヌドで構成されおいるずしたす。 フィヌルドGFqのB文字で構成されるファむルを考えたす。これは、 GFq䞊のnα文字で゚ンコヌドされ、ノヌド間で分散されるため、各ノヌドはα文字を栌玍したす。 コヌドは、 k個のノヌドからの情報からデヌタを完党に埩元できるように構築されおいたす。 さらに、1぀のノヌドからデヌタを回埩するには、 d個のノヌド[1,2]からβ≀αの情報を取埗するだけで十分です。図を参照しおください。 1.倀γ=dβは、修埩垯域幅ず呌ばれたす。

[2]では、デヌタサむズBが䞊に制限されおいるこずが瀺されたした。

B \ le \ sum_ {i = 0} ^ {k-1} min \ {α、d-iβ\}



図1.コヌドの再生成

 B、k、d の固定倀の堎合、この境界を満たす倚くのペアα、βがあり、これらのパラメヌタヌに関しお、2぀の極端なポむントで劥協を埗るこずができたす。 storage "、たたはMSR 、Minimum Storage Regenerationおよび範囲γ=dβの最小化このポむントは、"最小範囲での回埩 "たたはMBR 、Minimum Bandwidth Regenerationず呌ばれたす。 指定された境界を満たすコヌドは、再生コヌドず呌ばれたす。 察応する境界の䟋を図に瀺したす。 2 [2]。


図 2.コヌドを再生成するためのMSR-MBR曲線

近幎、MSRずMBRのポむントでのコヌドの構築、および境界の䞭間ポむントにあるコヌドの構築にかなりの泚意が払われたした[3,6,7]。 [8-15]には、再生成コヌドのさたざたな構造も蚘茉されおいたす。 これらのコヌドの䞻な欠点は、スケヌラビリティが䜎いこずです。

さたざたな再生成コヌドの1぀である「butterfly」[4]このコヌドは䜓系的で、ランダム読み取りなどのク゚リにずっお非垞に重芁ですを最適化しお、1぀のディスクを迅速に回埩し、この蚭蚈のスケヌラビリティを向䞊させたした。

バタフラむコヌディングスキヌム


のシヌケンスを考えたす 2n−1ストラむプ。nはデヌタディスクの数です。 このストラむプセットのデヌタは、XORコヌドを䜿甚しお゚ンコヌドされたす。 最初のチェックサム h は、すべおのデヌタディスク䞊の同じLBAを持぀ブロックで蚈算されたす。 hi= sumjaj、i。 2぀目は、図3に瀺されおいるバタフラむ図に埓っおいたす。


図 3.バタフラむコヌディングスキヌム

たずえば、チェックサム蚈算 b3xorブロックずしお実装 a3.0、a2.1、a0.2、a4.3。 さらに、ブロックの色も重芁です。これは次のように定矩されたす。iのバむナリ衚珟のj番目のビットが j-1 番目のビットず䞀臎する堎合、ブロックは aj、i緑になりたす。 れロコンポヌネントの堎合、偶数ブロックはすべお緑色になりたす。

結果のセットに緑色のブロックが含たれる堎合、それらのそれぞれに察しお、その右偎のブロックをセットに含める必芁がありたす。 ぀たり、ブロックが aj、iメむンセットから-緑、ブロックもセットに含たれおいたす aj−1、i。 この方法でセットに含たれるブロックの堎合、色は問題ではなくなりたす。 したがっお、次の蚈算匏 b3このようになりたす

b3=a3,0+a2,1+a0,2+a0,1+a4,3


たさにそのようなコヌディング方法の遞択は、[4]で実蚌されおいたす。 これにより、同時に故障した2぀のコンポヌネントの埩元が保蚌されたす。

この゚ンコヌド方匏を䜿甚するず、読み取りデヌタでコンポヌネントを回埩するために必芁なものは少なくなりたす。 すなわち、回埩のために 2n−1故障したストレヌゞシステムコンポヌネントのブロックを読み取る必芁がありたす n+1⋅2n−2ブロック-制限では、RAID-6ず比范しお読み取り回数が2回枛少したす。

ただし、チェックサムを含むノヌドに障害が発生した堎合、リカバリのためにすべおのデヌタを読み取る必芁があり、この堎合、ゲむンはありたせん。 この問題は、RAID-6のシフトず同様のシフト、たたはロヌカル再構成コヌドを䜿甚したアプロヌチですでに䜿甚したランダム化の助けを借りお解決できたす 。 各セットに 2n−1ストリップはランダムな順列を行い、チェックサムによるコンポヌネント障害のケヌスを凊理するために必芁な読み取り倀は、すべおの障害モヌドに均等に分散されたす。

たた、コヌドの再生成には1぀の重倧な欠点があるこずを理解する必芁がありたす。ストリップ内のブロック数の厳密な制限です。 ディスクアレむの堎合、これは重芁ではありたせん。゚ンコヌドされたブロックのサむズが倉わる可胜性があるため、぀たり、その数が倉わる可胜性があるためです。 ただし、ディスクの数を制限できるノヌドのクラスタヌ構成では、スケヌリングの問題を解決する必芁がありたす。 考えられる解決策の1぀は、ストラむプを再生グルヌプに分割するこずです。 これにより、グルヌプの数だけ冗長性が向䞊したすが、コヌディングセット自䜓は指数関数的に小さくなりたす。図を参照しおください。 4。


図 4.゚ンコヌドされたセットストラむプの指数関数的削枛

最埌に、再生コヌドを適甚する際に考慮すべき最埌のこずは、故障したディスクからの情報が埩元される領域です。 実際、ホットスペアディスクにリカバリする堎合、リカバリ速床は曞き蟌みディスクの速床によっお制限され、読み取り回数を枛らしおも倧きな利点は埗られたせん。 したがっお、ストリップに空のブロックを含める必芁がありたす。

性胜詊隓


パフォヌマンステストのために、特定のレむアりトの22台のディスクからRAIDを䜜成したした。 RAIDデバむスは、特定のアルゎリズムに埓っおデヌタブロックのアドレス指定を倉曎するデバむスマッパヌの倉曎を䜿甚しお䜜成されたした。 デヌタはRAIDアレむに曞き蟌たれ、その埌のリカバリのためにチェックサムが蚈算されたした。 故障したディスクが遞択されたした。 デヌタリカバリは、察応する空のブロックたたはホットスペアディスクで実行されたした。 次のスキヌムを比范したした。


テストでは、次の特性を持぀22個のディスクが䜿甚されたした。


パフォヌマンスをテストするずき、ストラむプブロックサむズは倧きな圱響を及がしたす。 埩元する堎合、ディスクからの読み取りはアドレスを増やしお順次実行されたすが、ランダムレむアりトでのクラスタヌ解陀により、䞀郚のブロックがスキップされたす。 これは、ブロックのサむズが小さい堎合、磁気ディスクヘッドの䜍眮決めが非垞に頻繁に行われ、これがパフォヌマンスに悪圱響を䞎えるこずを意味したす。 デヌタ回埩速床の特定の倀は、ハヌドドラむブのモデル、メヌカヌ、RPMに䟝存する可胜性があるため、結果を盞察的な甚語で瀺したした。 図5は、埓来のRAID-6ず比范したスキヌムb-fによっお埗られるパフォヌマンスの向䞊を瀺しおいたす。


図 5.さたざたな配眮アルゎリズムの盞察的なパフォヌマンス

ホットスペアディスクにデヌタを埩元する際、ホットスペアを䜿甚するすべおの回路のディスクぞの曞き蟌み速床によっお回埩速床が制限されるこずがわかりたした。 ランダム化されたLRCスキヌムず再生成コヌドの䞡方が、最適でないRAID-6ず比范しお回埩速床のかなり高い増加をもたらすこずに気付くかもしれたせん。 再生成コヌドは明らかに回埩率に぀ながるずいう事実にもかかわらず、゚ンコヌドされたセットのブロック数の制限ず倧きな冗長性テストされた構成の空のブロックを考慮するず、冗長性は30以䞊でした図6。


図 6.さたざたなアルゎリズムの冗長性

おわりに


Butterflyコヌドの再生成は、HDFS、Ceph [5]で正垞にテストされおいたす。

ロヌカルシステムで再生コヌドを䜿甚するためのオプションを怜蚎し、それらをスケヌリングし、単䞀のドラむブ障害状況を迅速に凊理するためにそれらを䜿甚する方法を考え出したした。

この゜リュヌションのパフォヌマンスが最高であるこずが刀明したずいう事実図5を参照にもかかわらず、冗長性の芁件図6を参照には高いコストがかかる可胜性があるため、このアルゎリズムはどこにも適しおいたせん。 したがっお、特定の堎合に信頌性のために堎所を犠牲にするこずが可胜かどうかを垞に理解する必芁がありたす。

提瀺された゜リュヌションは、分散型のクラりドストレヌゞシステムに䞀般化できたす。 そのようなシステムでは、ボトルネックはネットワヌクを介したデヌタの送信であり、提瀺されたアプロヌチによっお最小限に抑えるこずができるため、利点はさらに明癜になりたす。

文孊
[1] A.ダッタずFEオギ゚。 ネットワヌク分散デヌタストレヌゞ甚にカスタマむズされたコヌドの抂芁。 CoRR、abs / 1109.2317、2011幎。
[2] A. Dimakis、P。Godfrey、Y。Wu、M。Wainwright、およびK. Ramchandran。 分散ストレヌゞシステムのネットワヌクコヌディング。 情報理論、IEEE Transactions on、5694539–4551、2010幎9月。
[3] T. Ernvall。 mbrポむントずmsrポむント間の正確な再生成コヌド。 情報理論ワヌクショップITW、2013 IEEE、ペヌゞ1〜5、2013幎9月。
[4] E. En Gad、R。Mateescu、F。Blagojevic、C。Guyot、およびZ. Bandic。 GF䞊の修埩最適MDS配列コヌド2。 情報理論䌚議ISIT、IEEE囜際シンポゞりム、2013幎。
[5] Lluis Pamies-Juarez、FilipBlagojević、Robert Mateescu、Cyril Guyot、Eyal En Gad、Zvonimir Bandic。 ryを開くMSRコヌドの実際の修埩パフォヌマンス。 ファむルおよびストレヌゞテクノロゞヌに関する第14回USENIX䌚議の議事録FAST '16、81〜94ペヌゞ。 USENIX協䌚、2016幎。
[6] J. Li、T。Li、およびJ. Ren。 分散クラりドストレヌゞにバむンドされたmdsを超えお。 INFOCOM、2014 Proceedings IEEE、307〜315ペヌゞ、2014幎4月。
[7] N.シャヌ、KVラシュミ、P。クマヌル、K。ラムチャンドラン。 転送による修埩ずストレヌゞ垯域幅のトレヌドオフに関する内郚ポむントの達成䞍可胜性を䌎う分散ストレヌゞコヌド。 情報理論、IEEE Transactions on、5831837–1852、2012幎3月。
[8] J.チェンずK.シャム。 suhramchandran再生成コヌドの耇数の障害を修埩したす。 In Information Theory ProceedingsISIT、2013 IEEE International Symposium on、1441-1445ペヌゞ、2013幎7月。
[9] B.ガストン、J。プゞョヌ、およびM.ビゞャヌ゚バ。 準巡回再生成コヌド。 CoRR、abs / 1209.3977、2012幎。
[10] S. Jiekak、A.-M。 Kermarrec、N。Le Scouarnec、G。Straub、およびA. Van Kempen。 コヌドの再生成システムの芳点。 Reliable Distributed SystemsSRDS、2012 IEEE 31st Symposium on、436-441ペヌゞ、2012幎10月。
[11] KVラシュミ、N。シャヌ、およびP.クマヌル。 productmatrix構築によるmsrおよびmbrポむントでの分散ストレヌゞの最適な正確な再生成コヌド。 情報理論、IEEE Transactions on、5785227-5239、2011幎8月。
[12] K.シャムずY.胡。 分散ストレヌゞシステム甚の正確な最小修埩垯域幅協調再生コヌド。 In Information Theory ProceedingsISIT、2011 IEEE International Symposium on、1442-1446ペヌゞ、2011幎7月。
[13] K.シャムずY.胡。 転送による機胜修埩の再生成コヌド。 Information Information Theory ProceedingsISIT、2012 IEEE囜際シンポゞりム、ペヌゞ1192–1196、2012幎7月。
[14] KWシャムずY.フヌ。 協力的な再生成コヌド。 CoRR、abs / 1207.6762、2012幎。
[15] C. SuhおよびK. Ramchandran。 干枉アラむメントを䜿甚した完党修埩mdsコヌドの構築。 情報理論、IEEE Transactions on、5731425-1442、2011幎3月。

Source: https://habr.com/ru/post/J333766/


All Articles