別の日曜大工NAS、パート1:

注釈


平均して、NASに関する別の投稿が約6か月に1回表示され、システムをドキュメントに配置する方法について説明しています。 タスクを実際のプロジェクトに結び付けて予算を制限することで、タスクを複雑にします。 さらに、若いシステム管理者の足がまだ足を踏み入れていない場所に自分たちのためにstrawを敷き、またいくつかの業界の神話を破壊しようとします。

この記事は、サーバーストレージの専門家、ゲーマー、その他のオーバークロッカー向けではありません。 あなた、同僚、そして業界全体のために。 これは、初心者のシステム管理者、UNIXシステムの愛好家、フリーソフトウェア愛好家向けです。 誰もが古い鉄を蓄積しています。 誰もが自宅やオフィスに大量に保管する必要があります。 しかし、誰もがサーバーテクノロジーに簡単にアクセスできるわけではありません。

あなた自身のためにいくつかの有用なアイデアを見つけ、それでも他人の間違いから学ぶことを本当に願っています。 覚えておいてください:システムはハードウェアに支払ったほどの費用はかかりませんが、テストと運用に費やす時間と労力はどれだけかかりますか。
読みたくない場合は、最後のリンクと結論をご覧ください。 気が変わるかもしれません。

免責事項


情報は、AS-ISによって提供され、誰でも、どこでも、いつでも使用する責任を負いません。 誤って言及された商標はすべて、それぞれの所有者の財産です。 それらのいくつかはもはや広告をあまり必要としないので、私は彼らのためにコミック名を思いつきます。

謝辞


Andrei Alexandrovich Bakhmetyev、エンジニアおよび発明家に敬意を表します。 アンドレイ・アレクサンドロヴィッチが研究所で教えてくれたことを誇りに思います! 彼のプロジェクトでの成功を祈っています!

挑戦する


そのため、週に約50 GBのファイルを生成する小規模企業のスタートアップがあり、数年間それらをアーカイブする必要があります。 ファイルは大きく(それぞれ約10〜20 MB)、従来のアルゴリズムでは圧縮できません。 データの初期量は約2TBです。 非常に古いデータをオフラインで保存し、オンデマンドで接続できます。
500ユーロ (2013年夏の価格) の決定という非常に控えめな初期予算と、 組み立てとテストのための2週間の期間を満たす必要があります

このお金のために、異なるプラットフォーム(Windows、Mac OS)から同じローカルネットワーク上の小さなグループにファイルを操作できるシステムを構築する必要があります。 サイトのシステム管理者なしでの長期的な作業、障害に対する保護、およびアクセス権管理の基本機能が必要です。

伝統的な方法


もちろん、ネットワークストレージを購入することもできます。これらはNetAppQNAPSynologyなどのプレーヤーによって作られており、さらに中小企業にも適しています。 しかし、私たちの500ユーロは、ドライブ自体がなくても、空のボックスの会話の始まりにすぎません。 1000〜2000ユーロをお持ちの場合は、完成品を購入することをお勧めします。最高額を知識で、最低額を時間とお金で支払うようにします。

UPD(2014-03-08のスポイラーrev.2):
ゴミからではなく、新しい鉄から収集する場合
ハブコミュニティから親切に提供されたこの投稿とそのコメントの全体に基づいて、単純な4ディスクシステム用の次のアルゴリズムを提案します。
  1. 使用可能なディスクモデルの中で最も容量の大きい2倍のサイズが保存されたデータに対して十分でない場合、スポイラーの読み取りを停止します(例:4TBモデル、7TBのデータを保存する必要があり、続行します; 10TBを保存する必要がある場合、停止します)
  2. 有名なサーバーメーカーHarlampiy-PankratのMicroServerラインから製品を選択します。 たとえば、n36l、n40l、n54l、4つのドライブベイ(主なことは、ECCメモリのサポートがあることです)
  3. 必ず、保存データの1 TBごとに1 GBのレートでパリティメモリ(ECC)をサーバーに装備してください。ただし、8 GB以上(最大4 TBのドライブに対するFreeNASの推奨によると、わずか8 GBになります)
  4. ECCメモリがない場合は、 すぐにこのスポイラーの読み取りを停止し、最後まで投稿を読んでください
  5. 現在の障害の概要を使用して、ディスクの製造元を選択します。 たとえば、これ: http : //habrahabr.ru/post/209894
  6. ERC必須の SATAドライブの安価なラインを選択しますが、その理由は次のとおりです: http : //habrahabr.ru/post/92701
  7. ディスク容量 (2TB、3TB、または4TB)は、そのうち4つが存在し、データ用に半分しか使用できないことに基づいて選択します(後半はRAID冗長性用)
  8. 購入する前に、ハードウェア同士の互換性、スロットの数、コンパートメント、スラットなどを慎重に徹底的にチェックします。
  9. この投稿の続きを読んだ後、適切なブート可能なフラッシュドライブを選択します(パート2:良い思い出)
  10. 私たちは、新しい鉄の香りを買い、吸い込み、集め、結びつけ、打ち上げます。 ZFSの場合、 すべてのハードウェアRAIDを必ずオフにしてください
  11. 4台のディスクからなるRAIDZ2ボリュームを作成します。 冗長性2倍にしてください (ボリュームサイズが約12 TBの場合、邪悪なUREに遭遇するリスクがあります。この記事を読んでください。最新のディスクでは4Kbであり、この場合は完全にとんでもない43Kbのストライプになります。これにより、アレイの速度も向上します: forums.servethehome.com/hard-drives-solid-state-drives/30-4k-green-5200-7200- question.html
  12. 味に塩、砂糖、コショウ、刑務所、ボール、スクリプトなどのサワークリームを追加します



しかし、 クラウドストレージについてはどうでしょうか。 この記事の執筆時点では、ボリューム向けの人気のあるクラウドストレージサービスは、予想以上に高価に見えます。 たとえば、有名なBros Boxサービスで36か月間無制限の量のデータを保存するコストは、数千ドル以上かかりますが、徐々に支払うことはできます。 もちろん、 Amazon Glacier (助けてくれてありがとう)やOpenwork Windowsのようなサービスもありますが、まず、ストレージだけでなく、処理(先験的に計算する方法)も課金します。そして、第二に、忘れないでくださいビジネスは10 Mbpsのインターネットアップリンク上にあり、テラバイトの操作にはプロセスを管理するための一定の努力が必要になるだけでなく、ユーザーにとっても非常に疲れることでしょう。

通常、そのような場合、古いコンピューターを使用し、大きなディスクを購入し、Linuxをインストールします(必ずしも誰かがWindows 7を工夫しているわけではありません)、RAID5アレイを作成します。 素晴らしい。 約6か月または1年はすべて正常に機能しますが、ある晴れた朝、サーバーは突然警告なしにネットワークから消えます。 もちろん、システム管理者は長い間別の会社で働いており(スタッフの売上高)、バックアップはありません(ボリュームが大きすぎます)、そして新しいシステム管理者はシステムを修正できません(同時に、古いシステム管理者とLinux YYY方言のsc責は、Linuxを使用しなければならなかったためです) ZZZ、それなら間違いなく問題はないでしょう)。 これらすべてのストーリーは長い間繰り返され、同じように、OSバージョンのみが変更され、データ量が増加します。

業界の神話


RAID5神話

私が最近まで信じていた最も一般的な神話は、実際には、確率論によると、配列に2回目の連続した失敗はあり得ないということです。 そして、ここでそれができる、そしてどのように! 実際の状況をシミュレートします。サーバーは数年間稼働し、その後アレイでディスクに障害が発生しました。 これまでのところ、新しいディスクを入れて、どうなりますか? ええ、アレイの再構築、つまり すでに磨耗したディスクの最大負荷が長い。 このような状況では、障害が発生する可能性が非常に高くなります。
しかし、それだけではありません。 また、製造業者の読み取りエラーの方法論的な可能性もあります。これは、特定の状況下では、ディスク障害後にRAID5が再び収集されないことをほぼ保証します。

テラバイトの神話

もちろん、すべてのディスクメーカーを初心者プログラマーと見なすこともできますが、SIシステムに厳密に基づいて、1つの業界のキロバイトは1000バイトで受け入れられます(実際、1998年はキビバイトと呼ばれ、KiBの略であるため、他のキロバイトは事実です)。 ただし、これだけではありません。 事実、生産されたすべてのスピンドルディスクには工場ですでに検出された欠陥があり、その数はランダムであるため、実際に利用可能なサイズは「ウォーキング」です。 予算モデルでは、同じ製品の同じバッチ内でも上下に歩きます。 公称値が2TBの同一の4つのディスクのセットでは、2つが約2GB少なく、残りの2つが公称ボリュームより約400MB大きいことが判明しました。 つまり 1キロバイトは、戦時のサインのように、999ビット6ビットから、最後にハーフビットが含まれる場合でも正直な1000バイトの範囲です。 製品が漏れている潜水艦の市場で私たちに届けられるか、洪水のせいになりますが、ビットはどこかに消えます。

この要因を過小評価しないでください:アレイ内の障害のあるディスクを交換すると、公称サイズより少なくとも1ブロック短いことが判明した場合、劣化したRAIDアレイは理論的には最適な状態に組み立てられない可能性があり、最初は簡単に回避できる頭痛の種になります。 これに基づいて、多ければ多いほど良いということではなく、主なものは不変です。
サーバーハードウェアのメーカーは、常に技術的なマージンを確保すると同時に、ディスクのファームウェアの使用可能なスペースを人為的に減らすことでこの問題を解決し、特定の製品コードにより、(サポート内で)常に同じ容量のディスクを取得できると思います。 これは、おそらく、有名なサーバーブランドHarlampiy-Pankratの下のSeagateドライブと、それなしの「兄弟」がまったく同じ製品ではない理由の1つです。 しかし、これは私の推測です。 おそらく、データストレージ市場のリーダーたちは、袖に、より技術的な切り札を持っています。

プロジェクトのリスク


どのプロジェクトでも、リスクを理解することが重要です。なぜなら、最終的には楽しみのためではなく、ビジネスの成功のために構築するからです。 Crepsondoのハーモニー(失礼ですが、ビジネス継続性)を実現するために、まずは失敗の可能性とその結果を考慮に入れた単純なリスクモデルを構築します。

ハードウェア

予算上、サーバーハードウェアにアクセスできないため、安価なディスクとコントローラーのみを使用できます。これは突然発生する自発的な障害の領域です。 ハードウェアのリスクには、機械的摩耗(スピンドルディスク、ファン)、電気的摩耗(特にフラッシュメモリの場合)、ディスクまたはコントローラーのファームウェアのエラー、低品質の電源、低品質のディスク、およびハードウェアRAIDアレイのスパッタが含まれます。 リスクは、陳腐化のために販売されているデバイスのスペアパーツ(スペアパーツ)のスペアパーツの不足と考えることができます。

ソフトウェア

ソフトウェア障害には、標準オペレーティングシステムの問題が含まれます。これは、自己破壊する傾向があり、定期的な管理を必要とする停電後の自己修復には最適な能力ではありません。 ここに、ソフトウェアRAID再構築のエラー、コントローラードライバーのエラー、ユーザーアクション(意図的および意図的でない)、および悪意のあるコードアクションを追加します。

利用可能な鉄


2004年頃の古いコンピューターが手元にありました。 Pentium 4 @ 3GHz CPUおよび1GBのRAMを搭載したマザーボードSocket 478 GA-8IPE1000MKのリリース。 ZEUSはケースに記載されており、最大6つの内部3.5インチベイ(今日の標準では多くの場合)、古風なFDD用の3.5インチ、4つの5.25インチ、冷却ファン用の2つの場所、250W電源を備えています。 ATI RADEON 8500グラフィックカードは、一度にSoldiers of Anarchyのようにヒットしましたが、その油を運ぶファンは長い間、バスカービル犬のように(もちろん、一般的には回転します)ハウリングを続けています。 CPUの冷却は、Zalman CNPS5700D-Cuによって決定されました。Zalmanは、ラジエーターから温められた空気を吸い込み、偏心ダクトを介してケースに吹き込み、そこから2番目のファンで再び吹き出す必要がありました。

ある日、私はこの飛行場全体に非常に疲れていたので、文字通りそれを見ることにしました。私は電気のこぎりを取り、本体に(ファングリルに沿って)丸い穴を開けて、カルマドンのミネラルウォーターのプラスチックボトルでダクトを増やしました 彼は2番目のファンを取り外し、レオスタットで最初の(CPU上の)rpmを下げました。

そのようなわずかにパンクな形で、このすべての物質的な部分は今日まで棚の上で悲しかったです。



ケースの背面パネルの穴は、ケースのメーカーによるATX規格の自由な解釈のために私のkunstkameraを補完しました。ファイルなしでダミーパネルをそこに運転することは不可能であり、私はこれらの試みを放棄しました。



マザーボードにはRAMコントローラーがあり、スタンバイモードでブラケットを変更できませんでした(これは、コンピューターがボタンでオフになっているが、電源がオンになっている場合です)。 そこには、特別なLEDインジケータでさえRAM_LEDが表示されます。そのタスクは、システム管理者に回路内の電圧の存在について警告することでした:
RAM_LEDがオンの場合、ソケットにDIMMを取り付けたり取り外したりしないでください。

もちろん、最終的にはコントローラーがカバーされました。 コネクタのメモリを特定のシャーマニズムの方法で移動しないと、マザーボードはそれを認識せず、うんざりしてきしみ始めました。 キーキーディレクトリでは、この信号はRAMの問題と電源の問題の両方を意味する可能性があり、完全に混乱していました。 図を完成させるために、BIOSはフラッシュドライブから起動するときに特に湾曲した環境を作成しました。そのため、すべてのSYSLINUX派生物をカテゴリ別にロードしませんでした(参考:これは、膨大な数のLinuxバリアント用のほぼ非代替のCD /フラッシュブートローダーです)。
なぜ私はこれすべてですか?

結論:
  1. このようなサーバータスク用のコンピューターは完全に不適切です。
  2. 若いシステム管理者は、古い鉄とのセックスを強く禁じられています。


アイデア


鉄の交換

もちろん、バグの多い母親、使い古されたメカニック、古い電源ユニットは、クレプソンドの哲学には適合していません(ああ、やはり申し訳ありませんが、ビジネスの継続性)。 クレプソンドの調和は私たちにとってより重要であるため、古い鉄に別れを告げ、歴史的な使命を果たしました。
Socket 478の代替品はASRock P4i65Gでした 。 オンボードグラフィックス、3つのPCI、2つのSATA、6つのUSBを搭載した良い母親のようです。 ハードウェア監視は、Winbond W83627に基づいています( lm-sensorsパッケージでサポートされています。これは、実行中のシステムのCPU温度に応じてファンレオスタットを調整するときに役立つことが判明しました)。



現在はビープ音が鳴らず、フラッシュドライブからの読み込みは正常に機能しますが、これはすでに良好です。 NASネットワーク用のオンボードの100メガビットでは不十分であるため、すぐに予算のD-Link DGE-530Tで1つのPCIスロットを占有し、さらに2つのPCI to diskコントローラーを残します。 通常、最大4つのポートがあり、2つのオンボードポートと一緒に10台のドライブを接続できます。
新しい電源ユニットについては後で説明しますが、今のところ、Socket 478に基づくシステムには250Wで十分であることに注意してください。 そのため、スピンドルドライブのスピンアップ用に200Wのパワーリザーブを頭で見積もった後、店で提供された450W FSP Group ATX-450PNR予算ソースにすぐに同意しました。 表面的には、大型の低速120mmファンが好きでした-つまり、ノイズが少なくなることを意味します( UPD:ATX-450PNRは、すべてのトリックにもかかわらず、タスクに対処できず、使用をお勧めしません ; habrahabr.ru/post/218387を参照してください)



同時に、ファッショナブルな流体力学ベアリングを備えたZalman ZM-F1-FDBファンのペアをつかみました。最初はCPUクーラーに、2番目はディスクの最初のグループを爆破します。
実際には、最も重要なものを選択する必要があります。

ディスクサブシステム


ネットワークストレージの場合、最も重要なタスクはアレイモード( RAID )を選択することです。 ソリューションの予算ではサーバーハードウェアを使用できないため、ハードウェアRAIDコントローラー、SAS、およびその他のファイバーチャネルをため息をついてすぐに置いておきます。 そこで、ソリッドステートドライブを脇に置きます。 キッチンにNASを設置したら(駄洒落でごめんなさい)、厄介な道は安価なSATAスピンドルドライブに基づくRAIDソフトウェアソリューションの魔法の世界通り抜けます 。 これははるかに面白いですが、クレプソンドの実践が私たちを助けるかもしれません。

ディスク

私の主観的な意見では、選択のあるSATA製品(SAS / FCと比較して)はさらに混乱し、マーケティングと混ざり合っています。 Seagateスピンドルドライブでは、約40%異なる2つの条件付き価格帯がありました。 上の方は中規模のビジネス向けのソリューションと見なされ、下の方はホームユーザーと中小企業向けのソリューションと見なされます。 最も安いドライブを使用することを脅かすものは何ですか? 一部の専門家の主観的評価( リンク )によると、安価なディスクは、運用の最初の週に高価なディスクよりもかなり頻繁に故障し、今年の結果によると、傾向は継続しています。 ここでこの表を慎重に引用しますが、これは特定の製品を指定せずに、インターネットユーザーの1人の非常に近似した主観的評価であると繰り返します。

技術最初の週にバウンス初年度のバウンス
ファイバーチャネル40から140のうち2
SAS34から134から2
SATAは高価です14から114の2-4
SATA安い8から12-4の8


同じユーザーの観察によると、生後2年目には、1ダースのうち約1つまたは2つのSATAドライブが故障します。 もちろん、すべてのSATAがSASやファイバーチャネルよりも動作が悪くなると考えられますが、これについてはほとんど議論できません。 ただし、専用の予算では、ほとんど選択肢がありません。

シーゲイトのメーカーを非常に直感的に選択したため、このプロセスについては説明しません。

UPD:
記載されているイベントは2013年の夏に行われたため、この素晴らしい記事はここでは読みませんでした: http : //habrahabr.ru/post/209894/ 。 シーゲイトは最良の選択ではないということになるが、読者は確かに警告を受けて武装している。 ありがとう、habrocommunity、あなたは最高です!

店舗でのオファーを簡単に分析すると、予算4TBの大容量ディスクの価格は2Tbよりもほぼ90%高いことに注意しました。 ギガバイトを保存するための単位コストは、ほぼ直線的に増加しました。 なぜこれがそんなに重要なのですか? 事実、4TBドライブのサポートが保証されているPCIバス用のコントローラーが見つからなかったため、実験することができませんでした。 これにより、2TBドライブを制限するか、古いハードウェアを放棄してPCI Expressバスに切り替える(新しいコンピューターを購入する)といった難しい選択が必要になりました。 幸いなことに、容量に対する価格のほぼ線形の依存関係は難しい決定を排除しましたが、NASで決定するため、ディスクサブシステムの総コストを常に考慮することをお勧めします。

価格モデルST2000DM001が気に入りました。 これはSeagate 2TBラインの予算オプションであり、新しい4Kセクターサイズを使用し、ファイルシステムの適切な初期化(フォーマット)が必要です。 ST2000DM001の代表者 2枚と3枚のプレートの両方に出くわすのは興味深いことです(写真-2枚のオプション)。



ST2000DM001を4個、7200 rpmで取ります。これで十分です。 購入した3つのディスクには、2つのプレート(ケースの大きなくぼみとシリアル番号の3番目の文字:E)と4つの3つのディスク(ケースの小さなくぼみ、シリアル番号の3番目の文字:F)が表示されました。 ディスク1CH164、ファームウェアバージョンCC26の変更。 安いSATAディスクを扱っていることを忘れないでください。少なくともファームウェアをCC29に更新します。

もちろん、NAS HDD ST2000VN000ラインの代表は、私たちのタスクにより適合しています。このモデルは、 ERCアレイに最も役立ち、5900 rpmで実行されます。 ドライブの発熱は少なく、長持ちし、ネットワークストレージモードでは速度の差が顕著になることはほとんどありません。

UPD:
アレイ用のディスクを選択するときは、ERCの存在を必ず要求してください。これについては、 habrahabr.ru / post / 92701をお読みください。

最初は、 ST2000DM001は電源投入時間2400hパラメーターによって非常に混乱していましたが、Seagateには全寿命ではなく年間の稼働時間数があります。 さて、中小企業の1日の仕事の3分の1で十分であることを期待しましょう。 タイムアウトによりスピンドルをスタンバイにすると、デバイスの機構の開始停止が犠牲になります。 そのような節約が正当化されるかどうか、時間はわかります。

コントローラー

PCIバス用のビンテージSATAコントローラーの選択は少なかった。 Silicon Image SiI3114をベースにした予算の4ポートSTLab A-224を購入しました。 このコントローラーは、公式に2.2TBを超えるドライブをサポートしていませんが、フォーラムのまれなユーザーは反対を主張しています。



予算のある機器を使用しているため、ハードウェアRAIDは使用しない方が良いです。 なんで? 業界は予算のあるRAIDコントローラーに依存しているため、潜在的なバグが潜んでいます。 ソフトウェアアレイは監視、修復、調整が簡単だからです。 私たちのコンピューターは実際にはネットワークを備えたRAIDコントローラーだからです。 しかし、私に同意しない向こう見ずな人に幸運を祈ります。

多くの欠点にもかかわらず、古風な鉄にはまだ1つの重要な利点があります:ドライバーはほとんどの場合、世界で利用可能なすべてのオペレーティングシステムのカーネルに既に縫い付けられており、長年にわたって、ドライバーとコントローラー自体のファームウェア。 ファームウェアのバグは非常に危険なので、これがA-224に当てはまることを願っています。 セールスマン、最後にセールスから姿を消すまで2つのコントローラーを渡します。

合計

製品価格約ユーロ数量費用、ユーロ
マット ASRock P4I65Gボード47147
STLab A-224コントローラー20240
ディスクST2000DM001764304
D-Link DGE-530Tネットワークアダプター818
ATX 450PNR電源32132
ファンZalman ZM-F1-FDB7214
8GB USBフラッシュメモリ515
ケーブル、アダプター、サーマルグリースなど10-10
合計460


デザインをもう一度見てみましょう。 寝台のようなシンプルなJBODモードのコントローラーは、おそらく失敗しません。 4台の第3世代SATAドライブは、コントローラーよりも10年若いため、プレート全体で平均150MB / sを提供します(これはすべてのPCIを超えています)。 したがって、コントローラーからすべてのジュースを絞り出しますが、これはネットワーク上で目立つことはほとんどありません。 劣化した2Tbミラーの復元には8時間かかりますが、これは非常に大きなですが、致命的ではありません。 4Tbは16時間です。 遅いプロセッサ、少しのRAM、いくつかのUSBポート、ギガビットネットワーク、完全に新しいメカニズム、コントローラーの空きポート、ケースの空きコンパートメント、電力の供給があります。 鉄の予算を満たしました。ソフトウェアを扱います。

ソフトウェアの選択


無料のストレージシステムのうち、 FreeNASOpenMediaVault (OMV)、およびopenfilerが最もよく言及されています。 誰もが独自の「トリック」を持っています。たとえば、OMVの要件は非常に控えめで、openfilerにはリモート複製機能があります。

FreeBSDプラットフォームに基づいたFreeNASプロジェクトを見てみましょう。 知らない人のために:「無料」(愛情を込めて呼ばれている)はLinuxではなく、カリフォルニア州バークレー大学にちなんで名付けられた無料のクラシックUNIXです。 ところで、フレーチカは、現代のMac OS Xの祖父(祖母?)と見なすことができます。

FreeNASを選ぶ理由FreeNASの主な利点は、小さなフラッシュドライブからダウンロードされた有名なブランドハイパーバイザーVymoy Varuに似た工業デザインの無料システムデザインであることです。工業デザインとはどういう意味ですか? FreeNASは、フラッシュドライブのルートファイルシステムを読み取り専用モードでマウントし、ログをストレージまたはRAMディスクに書き込みます(OMVまたはopenfilerでこのようなモードは見つかりませんでした)。これにより、フラッシュメモリを磨耗から保護するだけでなく、サーバーをソフトウェア障害から保護します。無料のFreeNASは、ターンキーボックスの形式で実装できます。 1つのボタンがオンのボックス。 Crepsondoパラダイムに従って、それはビジネスに理想的なソリューションです。 WindowsおよびMac OSワークステーションクライアントのサポート要件も思い出してください。
FreeNASの優れた「トリック」は、その無料の刑務所(仮想 -), Linux, , Open Source, .

FreeNAS . FreeNAS ZFS . , : 8 , , 64- – ( 1 , 2) ZFSは1GBのRAMでもi386アーキテクチャ上で作成できると私は主張しません。しかし、私の努力にもかかわらず、古いハードウェアでは、単純な線形読み取り/書き込み操作でさえ、ZFSは非常に不快なパフォーマンスを示したため、このオプションはシステムレイアウトとしてのみ検討でき、ソリューションではありません。これに加えて、4つのドライブでZFSはRAIDZ2の使用を推奨しています。有効なボリュームは半分(RAID1の場合)になりますが、同時にCPUとRAMリソースの過剰な消費が必要になります。問題は、4枚のディスクでZFSをどの程度正当化するかです。理論的には、ZFSアレイはより高速に再構築されていますが、非常に不快な要素が1つあります。

, ZFS . ZFS , Yupu Zhang, Abhishek Rajimwale, Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-Dusseau - ( End-to-end Data Integrity for File Systems: A ZFS Case Study ):
In the last section we showed the robustness of ZFS to disk corruptions. Although ZFS was not specifically designed to tolerate memory corruptions, we still would like to know how ZFS reacts to memory corruptions, ie, whether ZFS can detect and recover from a single bit flip in data and metadata blocks. Our fault injection experiments indicate that ZFS has no precautions for memory corruptions: bad data blocks are returned to the user or written to disk, file system operations fail, and many times the whole system crashes .


わあ、RAMエラーが原因でアレイ全体を大量のTBに拒否するにはどうすればよいですか?いいえ、ありがとう、私たちはクレプソンドの支持者です。私たちはそのような選択肢を前もって見通しています。エラー制御(ECC RAM)を備えた新しいメモリスロットと新しいサーバーマザーボード(同時に、プロセッサ、冷却、ケース、電源など)の予算は間違いなく十分ではありません。したがって、不必要な後悔なしに、ZFSを脇に置きます。優れた技術ですが、サーバーハードウェアはありません-時限爆弾。

結論:ターンキーボックスのスタイルで工業デザインを選択した場合、これはFreeNASです。古いゴミを収集する場合、これはZFSではありません。GEOMフレームワークでUFSのまま唯一の問題は、FreeNASがUFSを使用している場合でも、2GB以上のRAMを推奨していることですが、これはありません。これはリスクですが、作業負荷は非常に小さくなります。

ちょっとした歴史

geomフレームワーク(4)は、2003年頃に開発されたモジュール式のディスク処理サブシステムです。 Network Associates Security Lab(McAfee)は、インターネット全体の母校であるDARPA自身との契約に基づくFreeBSDプロジェクトのために。つまりGEOMは、ある角度から見ると、インターネット自体の一種のディスクいと考えられ、ウイルス対策ラボのプログラマーの努力によってUNIXカーネルに「配線」されています。ここにカクテルがあります。
FreeNASプロジェクト自体の運命を思い出す価値があります。FreeNASプロジェクトは、ある種の分裂した性格(より正確には、Debianプラットフォームで言及されたOMVを考慮すると混乱)を乗り越えました。詳細には触れませんが、出力には非常によく似た2つのプロジェクトがあります。新しいFreeNASと、法的理由により古いNAS4freeと呼ばれるものです

FreeNASプロジェクトの新しい所有者は、コードの深いリファクタリングに労力を費やしていないようです。おそらく、「廃止された」機能(たとえば、RAID5)いずれにせよ、FreeNASはFreeBSDの強力な開発ドライバーのように見え、「無料」カーネルでのZFSの開発に明確な関心があります。さて、同僚に幸運を。

FreeNASとそのNAS4freeブランチの祖先を比較すると、私にとって主観的には、FreeNASはRAID5がないにもかかわらずより強く見えます。言葉で説明するのは簡単ではない特定の感覚があります:グラフィカルインターフェイスを介して、NAS4freeはまだ深いリファクタリングを必要とするコード(「魂のあるコード」)の匂いを吹きます。では、これはどのようなリファクタリングですか?次に簡単な例を示します。NAS4freeとは異なり、フラッシュドライブを使用している場合でも、FreeNASはシステムを完全に再起動せずに構成の変更を適用できます。これは、ルートシステムが読み取り専用モードでマウントされているという事実にもかかわらずです。私にとってそれは強い議論でした。さらに、FreeNASはRDBMSに構成を保存するように切り替えましたSQliteおよびNAS4freeは、まだシンプルですが最も信頼性の低いXML形式を使用しています。

RAID5またはRAID5ではない

UFSおよびGEOMソフトウェアRAIDアレイは、テクノロジーの観点からRAIDZを使用してZFSに到達しませんが(一見すると、これは一本の枕木と斜張橋との競合のようです)、GEOMには一般的なRAID0 / 1/5モードがあります。ただし、最新のFreeNASではRAID5ボリュームの作成が許可されておらず、互換性のために最も単純なモードはRAID0(ストライプ)とRAID1(ミラー)のみです。

なぜそう

これにはおそらく2つの理由があります。それらを単純化したものとしましょう。機械的および数学的(波動粒子双対性のようなスピンドルディスクに絡み合っています)。

2年間の運用後、10Tbアレイの1つのディスクの故障/交換を想像してください。1週間の再構築プロセス(!)は、すでに磨耗したスピンドルを苦しめます(上記のRAID5の神話を参照)。しかし、このようなストレスの下では、古いディスクは3日間も持続せず、アレイが完全に破壊され、その後ストレスが発生します。

あなたは尋ねる:どのように再建のための週?Seagate Barracudaの2世代の代表者を見てみましょう(http://www.storagereview.comの資料を使用しています)。

定規おおよその年収容人数プレート読み取り速度、Mb / s完全な読書、hRAID5再構築
7200.92005年500GB50〜02:45とても長い時間
7200.1420124TB150〜07:25途方もなく長い


容量が約8倍になった場合、速度は3倍になります。しかし皮肉なことに、ここではRAID1の再構築の速度を先験的に想像できます。また、ビンテージPCIコントローラーのこのような迅速なオプションでさえ、それほど熱くなりません。RAID5アレイでは、速度は一般にプロセッサの数学的能力によって決定され、さまざまな推定によれば、データのTBごとに約1日です(残念ながらリンクを提供できません)。

しかし、それだけではありません。ディスクには、回復不能読み取りエラー率と呼ばれるパラメーターがあります。これは、現代の予算では、SATAモデルは100兆ビットごとに1セクターです。つまり記録された約12TBのうち、ディスクには「ごめんなさい、マスター」と言われますが、必要なセクターを返すことは絶対に不可能です。読み取りエラー。」これは製造業者によって行われた方法論的エラーであり、したがって、安価なディスクで12 TBを超える容量のRAID5アレイを再構築することは不可能であることを理論的に保証します(公平に、SASディスクのUREは少なくとも1桁小さく、クリティカルボリュームはそれぞれ大きいことに注意してください)。RAID5の碑文は、Robin Harrisの記事「なぜRAID 5が2009年に機能しなくなるのか」で書かれています。

鉄の選択の結果によると、ディスクの最大合計容量は20Tb(18 TiB )、もう一度、クレプソンドの哲学的実践を通じてビジネス継続性への道を思い出し、一息ついてRAID5を一緒に思い出してください。

:

そのため、ハードウェアRAID(高価)、ZFS(高価)、およびソフトウェアRAID5(低速で信頼性の低い)を拒否します。 GEOMテクノロジーに基づいたUFSボリュームを備えたFreeNASを選択します。これは、カラシニコフ突撃ライフルのように、シンプルで信頼性が高く、必要に応じて修復されます。 必要なもの。
USBフラッシュドライブを追加してシステムを起動します-スピンドルドライブ全体がデータに割り当てられます。 誰かが誤ってブートフラッシュドライブを引き抜いて欲しくないので、最小サイズの予算のフラッシュドライブを選択します(後で判明したように、それは運命的で思慮のない決定でした http : //habrahabr.ru/post/214803/ )。



ストライプとミラーのオプションのうち、もちろんミラー(RAID1)を選択します。 結果のディスクシステムは、いくつかの独立したミラーボリュームの集合のように見えます。 各ミラーは、2TBドライブのペア(コントローラーの制限)から組み立てられ、初期化され、個別にマウントされます。 10個のディスクに保存されるオンラインデータの最大量は、5つの独立したボリューム(より正確には9TiB)で約10TBです。

このような設計はやや厄介に思えるかもしれませんが、データボリュームとディスクの数で本当に正当化されます。そうでなければ、障害時に途方もない再構築時間を伴う分離不可能なモノリスを受け取ることになります。

ここで少し触れます:安価なコンシューマーディスクが使用されているため、ボリュームを作成するときにボリュームを人為的に過小評価する必要があります。そうすることで、故障したディスクを新しいディスク(約2 TBの浮動容量)に置き換えることで問題が発生しないようにします。 より良い睡眠のために、技術的な「しっぽ」を最後に残しましょう。

ストリーマーカートリッジを搭載したワゴンのスループット

アーカイブストレージの観点から見ると、容量についてまったく動揺しないでください。折りたたみ可能なアレイがあります。 オンラインサーバーのボリュームNo. 1〜5の保存データを使い果たした後、最も古いボリュームNo. 1を手動で切断し、そのディスクを取り外し、2つの新しい2TBディスクをインストールして、新しいボリュームNo. 6を初期化します。 その後、古いディスクをUSB構造に入れて、ケース全体を分解することなく、ビジネスの要求に応じて同じFreeNASサーバーに接続できます。 読み取り専用でマウントできます。 必要に応じて、これをWindowsとMacの両方に接続できます。 いずれにせよ、覚えておいてください。古いスピンドルディスクを何もせずに振らないでください。そうしないと、生殖ブロックの磁気砂が年齢とともに散ります。

unionfsには別の興味深いシナリオがあります:いっぱいになったボリュームを読み取りモードにし、「上部」ボリュームのファイルシステムの下に「ダウン」すると、ディスクスペースの連続性の錯覚が生じます。 確かに、unionfsは難解であり、したがって危険であり、おそらく読み取り専用オプションが多かれ少なかれ実行されます。

すべて、アーカイブストレージの容量は、キャビネットの容量または古いディスクがスタックされている場合によって制限されています。 このケースもスペース内で移動される場合、帯域幅は一般にスケール外です。

船体工学


7200rpmドライブは暖かくなるので、一次冷却について少し考えてみましょう。 ケースに3.5インチのコンパートメントを吹き付ける場所を見つけ、ほとんど外科的に困難なため、Zalman ZM-F1-FDBファンをケースの細いスロットから指で引っ張る必要がある防振ゴムバンドに適合させます。 これらの消費者事件を通路と隙間でくそくし......



古いコメディを思い出しました。
兵士は尋ねられます:「なぜあなたはそんなによく見えないのですか?」 彼は、「まあ、一つの目の手術がありますが、それは肛門を通して行われます、そして、私は一人の男をそこに行かせません」と答えます...

ケースの後ろから突き出ているカルマ・ドムのミネラルウォーターの風変わりな緑色のペットボトルは、すでに目を祈っています。 したがって、CNPS5700D-Cuクーラーを分解し、エアダクトを持ち込んで買い物に食料品店に行きます。 さまざまなブランドのミネラルウォーターのボトルを順番に試してみると、2リットルのZvon Aquaボトルの直径とCNPS5700D-Cuダクトの丸い部分(それらは1つの工場で鋳造されたのですか?)



このような偶然の一致に成功したStuck-School社に感謝し、さまざまな鋭利な物体で数時間を過ごした後、透明なプラスチックで作られた複雑な形状の空気ダクトの一部を取得します。



新しいファンZM-F1-FDB 80mmをクーラーに挿入しました。その流体力学的ベアリングは同等のリソースを備えていますが、共鳴ボールのベアリングよりも静かです。 最後の瞬間に、船体の穴が必要以上に0.5センチ高くなっていることが判明したため、戦闘機の航空機設計者によって可変推力ベクトルで提案された粘着テープの花びらのスカートを追加します。





私たちの製品は、実際には偏向ノズルのように見えますが、もはやパンクのようには見えません。



最後に、10年前に私がグレートチャイニーズエンジニアリングコンセプトを解決できなかったまさにその場所に対処する時が来ました。 マザーボードに付属しているATXコネクタの背面パネルについて、またはこのスロットに取り付けることは不可能であることを思い出してください。



rebusはペンチで完全に解決され、周囲のプロファイルを1 cmごとにまっすぐにするだけであることがわかります。 ソケットはコネクタの穴を完全に保持し、凹凸はケース内に収まり、エンジニアリングの美学に違反しません。





スパゲッティ効果を回避するために、サーバーケースにはパスタの場所がないため、SATAコードを互いに結び付けます。 ツイストペアマーカーを使用してケーブルにマークを付けます。 ファンのレオスタットをマザーボードの空いている脚のケースに固定しましたが、これは非常に適切でした。 エアフローのキャリブレーションを改善するために、古いディスクも引き続き使用されますが、すぐに削除します。





熱効率の考慮に再び導かれ、少なくとも1つのコンパートメントを介してディスクからミラーアレイを収集します。 そのため、同じアレイのディスクがコンパートメント内で隣接しているように見えず 、特に長時間の再構築操作で互いに温められません 。 また、少なくともボリューム番号でディスクにマークを付けます。 UPD:リボンサーマルプリンターで印刷してディスクのシリアル番号を配置することをお勧めします。リボンプリンターがない場合は、透明な粘着テープの下の紙片に印刷します。 3つ以上のディスクがある場合、これは緊急および緊急操作で非常に役立ちます。



電源をオンにし、温度を測定し、負荷がかかった状態でファン加減抵抗器を較正するだけです。

栄養

FSPグループATX-450PNR電源についてはかなり肯定的反応しますが、欠点( link1link2 )のボイラーの効率とミニマリズム(電力補正器の欠如)のジャンルの古風なデザインを考慮してください。 利点は、 信頼性UPD: 6か月後に信頼性に関する質問がありました)と、比較的静かで低速の120mmファンです。
4つのST2000DM001スピンドルの開始電力は2.5A x 4 x 12V = 120W程度である予想され、グラフィックスなしのPentium 4のコールドアーキテクチャと組み合わせると、250Wのマージンで収まるはずです。

台湾のFSPグループのサイトでは、この製品が製品に含まれていませんでしたが、ロシア連邦の店舗は明らかに貧困状態ではなかったことは注目に値します。 これは、CIS市場向けに特別に安くされたOEMオプションであり、低効率のために可能なすべてが引き裂かれているという疑いがありました。 結局のところ、私たちの国では長い冬と過剰な電気があり、私たちは喜んで非効率な機器になり、家やオフィスの居心地の良い暖かさに変わります。
要するに、ボイラーの効率にもかかわらず、私たちのユニットはまだ必要以上に約200Wを供給しています。これは朗報です。 しかし、私たちの歴史の次の部分で書くニュアンスがあります...

結論


  1. ドライブ容量の不均衡な増加により、RAID5などの実績のあるものが事実上埋もれています。
  2. アレイの再構築に苦労したのは、新しいハイテクファイルシステムですが、高価なハードウェア(ECCメモリのため)でしか実装できません。
  3. ゴミ箱にサーバーを構築することは、リスクであり、リスクのままです。 このような状況では、合理的な単純さが勝ち、プリミティブに隣接します(ミラーの折りたたみ可能な配列のように)。
  4. 古風な鉄-ビンテージテクノロジー、ただし新しい「工業デザイン」パッケージ。


続く


次の部分を読んでください:実際の操作の経験、失敗、船体工学の次のラウンド、およびその他のシステム調整について。

UPD:
別のNASについてのストーリーのすべての部分は自分で行います
パート1:何から
パート2:良い思い出(FreeNASや他の組み込みOSをダウンロードするためのフラッシュメモリ)
パート3:古い塔での冒険
パート4:チェルノブイリの幽霊

参照資料


ファイルシステムのエンドツーエンドのデータ整合性:ZFSのケーススタディ 、Yupu Zhang氏、
Abhishek Rajimwale、Andrea C. Arpaci-Dusseau、Remzi H. Arpaci-Dusseau(コンピューター
ウィスコンシン大学マディソン校科学部)

www.netapp.com
www.qnap.com
www.synology.com
www.openmediavault.org
www.openfiler.com
aws.amazon.com/glacier
www.freebsd.org
www.linux.org
sqlite.org
www.freenas.org
www.nas4free.org
forums.freenas.org/threads/what-number-of-drives-are-allowed-in-a-raidz-config.158/#post-38835
www.zdnet.com/blog/storage/why-raid-5-stops-working-in-2009/162
www.wikipedia.org/wiki/ZFS
wiki.freebsd.org/ZFSTuningGuide
doc.freenas.org/index.php/Hardware_Recommendations
hardforum.com/showthread.php?t=1689724
www.wikipedia.org/wiki/GEOM
www.freebsd.org/cgi/man.cgi?query=geom&sektion=4
www.wikipedia.org/wiki/Unix_File_System
www.asrock.com/mb/overview.asp?Model=P4i65G
www.lm-sensors.org/ticket/1865
www.fsp-power.ru/product/atx_450pnr
www.fsp-group.com.tw
article.techlabs.by/print/36_29785.html
www.wasp.kz/articles.php?article_id=465
www.computerhope.com/beep.htm
www.gigabyte.com/products/product-page.aspx?pid=1648
www.zalman.com/eng/product/Product_Read.php?Idx=266
www.zalman.com/eng/product/Product_Read.php?Idx=410
www.dlink.com/us/en/home-solutions/connect/adapters/dge-530t-dge-530t-32-bit-10-100-1000-base-t-pci-adapter

Source: https://habr.com/ru/post/J214707/


All Articles