正しく計画されたデータセンターでのほぼすべての事故は予測可能であり、事故前の段階で検出できます。 しかし、「ストローを置く」場所を事前に理解する方法は? カットの下で、データセンターの信頼性を改善する私たちの経験
路上で プリシュビナ(e-Style Telecom)。
データセンターのインフラストラクチャは維持および確認する必要があり、当然、シャットダウンは許可されません。 これを達成する方法は?
システムのパフォーマンスに影響を及ぼす前に潜在的な問題を排除する方法は?
わが国のデータセンターの実際の信頼性は、次の3つの要因のみによって決まります。
1.データセンターの設計者と建設者の無関心と愚かさの程度。
2.会社、施設、接続における外部リスク。
3.データセンターの従業員の不注意とずさんさの度合い。
私たちや他の人のミスに基づいた苦痛で高価な経験のおかげで、データセンターの計画、設計、装備の段階でかなりの数の欠点と愚かさを検出することができました。 そして、最も重要なことは、それらを時間内に排除することです。
会社、建物、接続のリスクに関して、すべてがうまくいきました-建物と変圧器は「自分たちのために」建てられ、すべてが所有されており、最大のIT保有の1つである当社はRスタイル/ eスタイルです。
有能なサービスと操作を提供することだけが残っています...簡単に! どうやって? このパスに沿った手順:
最初のステップ、基本 :2つの並列監視システム、共通のSNMPインターフェース、隔離された管理ネットワーク。 e-Style Telecomデータセンターのすべての機器には、自己診断と監視の手段が装備/不足していました。 システムの現在の状態を理解するのに十分な情報がすでにありました。
2つ目 -数百の温度センサー(機器室の異なるポイント、異なるゾーン)が追加されます。 エアコンのユニットを切り替えると、容量と温度の分布が変わり、はるかに有益になりました。 この段階では、「プロジェクトに従って」盲目的に新しい機器を配置することはできませんでしたが、実際の熱画像を確認して比較し、ハードウェア負荷を計画しました。
3つ目は、サーマルイメージャーを使用してインフラストラクチャとサーバー機器の調査を定期的に実施することです。 彼らがこの方法を見つけたとき、彼らはとても幸せでした。 サーマルイメージャーを使用すると、分析のために多くの情報をすばやく取得できます。
バッテリー、端子、接続、ストレージ内のドライブ、ワイヤー、フィルター、ファン、空気の流れ、廊下間の空気の流れ-事前に表示されるようになりました。 各ラウンドの後、原則として、疑わしいものが検出され、排除されます。 たとえば、今日では、1つのキャビネットでケーブルの温度が7度上昇していることがわかりました。クライアントは1つのケーブルで5 kWの負荷を供給し、PDUの他のソケットを無視しました。
冷たい廊下の写真。機器のないキャビネットがすぐ下に見え、そこから熱い廊下から空気が流れます。

コールドコリドーのエンジニア:

ブレードが均一にロードされたIBMブレードのスナップショット:

バッテリーテスト中のバッテリーキャビネットのスナップショット:



キャビネット内の電源ケーブル:

過度の熱発生は、多くの場合、起こりうる問題の適切な予測であり、時間内に確認する主なものです。 「ストローを置く場所」を事前に知ることができました。