Intel Server Park、クラスター、およびデータセンターについて

モスクワとサンクトペテルブルクのインテル支社のIT部門の責任者であるセルゲイ・クズネツォフとのインタビューに注目します。セルゲイは彼の仕事と会社全体のインフラストラクチャについて多くの興味深い詳細を語りました-会話は非常に多様で有益であることが判明しました。

-Intel IT Galaxyの「昔の人」の多くは「サーバールーム」であなたに精通していますが、コミュニティの新しいメンバーだけでなく、あなたの新しい仕事や地位について学ぶことは彼らにとって興味深いでしょう。 ユニットについて少し教えてください。

-インテルは、全従業員に一定のキャリア成長とローテーションを提供します。特に、私はモスクワのオフィスで研究所をサポートしており、イノベーションセンターの技術マネージャーでした。現在、私はインテルのモスクワおよびサンクトペテルブルクのオフィスのIT部門の責任者です。この部門の責任には、これらのローカルサイトでの企業のグローバルプログラムとその運用パフォーマンスの調整が含まれます。毎日の仕事。私の責任には、ITリソースの計画、企業戦略と現地のビジネスユニットのニーズに応じたサイトの開発、サイトで利用可能なサーバー機器の使用効率の向上、利用率が不十分なシステムの使用モデルの調査、およびリモートサイトでのサービスの統合の可能性も含まれます、および機器の廃棄の改善を目的とした革新的な製品の使用方法...

-タスクの範囲は印象的です。 新しい位置でどのように機能しますか？あなたの仕事の効率を高める方法についてどう思いますか？

-IT部門の長の役職に移動した後、もちろん、負荷と対処する必要のあるタスクの範囲の変化を感じました。何らかのサービスに責任がある場合、責任範囲は比較的小さく、このサービスに限定されます。人々のグループとサービスのグループの指導者になるとすぐに、あなたは部門自体の生産性だけでなく、その活動の計画、部門が提供するサービスの信頼性、これらのサービスをサポートする人々の効率、および上記の運用上の問題の多く。技術に加えて、多くの外交課題にも取り組む必要があります。技術専門家の観点から見ると、リーダーの職務はより多様であり、やるべきことがたくさんあります。

仕事の有効性については、特定のサービスやユーザーグループのサポートを担当していたときに、毎日の職務を遂行すれば十分でした。ブランチの深刻な作業領域の責任を負うようになるとすぐに、個人の有効性が小さくなり、サイトで進行中のプロジェクトに注意し、複数のノートブックを保持する必要があります。 1つの要求が見過ごされませんでした。そして、ここでは、これまでにないように、発生するすべてのタスクを修正するのに重要なのは規律です。

-負荷が大きい、すべてに十分な時間がありますか？ あなたとあなたの従業員は夜働く必要がありますか？

-インテルのIT部門の従業員は、他の多くの企業と同様に、不規則なスケジュールに従って働いているという大きな秘密は明らかにしません。もちろん、何らかのサービスが落ちても、ユーザーを困らせません。当社は、昼夜を問わずいつでも提供されるサービスの仕事を確保する義務があります。そのような状況に迅速に対処するために、インシデントがいつ発生したかに関係なく従う緊急復旧計画があります。同時に、インテルには従業員の仕事と私生活のバランスという概念があり、私たちは十分な休息をとるよう努めています。たとえば、チームイベントを手配します。従業員が午後に忙しく、重要なサービスを設定し、リーダーシップに同意した場合、翌日に戻って休息し、仕事と自分の業務のバランスを埋めることができます。

-Intelサーバーパークの構造、部門の責任範囲内にあるサーバーについて話しましょう。

-消費者市場で生産とマーケティングを行っている多くの大企業とは異なり、インテルは研究開発会社です（研究開発）。当社の事業は、生産だけでなく研究活動にも基づいています。したがって、Intelサーバーパークでは、研究およびさまざまなコンピューティングを目的としたマシンの数が、ビジネスを提供し、企業のIT環境をサポートするインフラストラクチャサーバーの数を大きく超えています。 3つの主要なサーバーセグメントがあります。グローバルインフラストラクチャを担当するグローバルサーバー、ユーザーに個別のブランチで作業を提供するローカルインフラストラクチャサーバー、および調査活動用のサーバーです。後者は、コンピューティング用のサーバー、いわゆるコンピューティングサーバー、およびインタラクティブな作業とさまざまなアプリケーションのパフォーマンスを測定するためのサーバーの2つのカテゴリに分けられます。これらはパフォーマンスサーバーです。生産に関連するサーバーもありますが、ロシアには工場がありません。電子メール、インターネット、IMサービス、SharePointインフラストラクチャ、プロジェクトサーバー、SAPサービス、ビジネスプロセスサポートなどのグローバル機能はすべてグローバルサーバーに割り当てられます。そして、各ローカルサイトには、研究活動をサポートするためにサーバーを必要とするグループがあります。これらは、バージョン管理システムとプログラムコード品質管理システム、ローカルデータベースサーバー、ローカルWebアプリケーションをサポートするサーバー、およびサービスシステムです。

数年前、インテルは既存のデータセンターとすべてのサイトでの使用モデルに関する情報に基づいて、サーバーリソースを最適化するための戦略とソリューションを開発するワーキンググループを組織しました。小規模なデータセンターはより大きなものに統合され、小規模なサイトはデータネットワークを介してそれらと連携する機会を得ました。営業部門とマーケティング部門の従業員のみが存在し、大規模な研究グループが存在しない小規模な代表支店については、別個のデータセンターは作成されないことに留意してください。このように、過去数年にわたり、データセンターの統合に焦点を当てていましたが、ビジネス向けのローカルデータセンターの価値の評価と最適化に焦点を当てた戦略に移行しました。

たとえば、ロシアでは、各サイトに1つのデータセンターが編成されました。ロシアのインテルの各支店（研究開発部門、営業所については話していない）では、パフォーマンスを測定するために、ローカルに配置されたサーバー（対話型、計算機）との大量の作業を必要とする深刻な開発が進行中であるため、それらなしにはできませんソフトウェア。ただし、現時点では、ITは、リモートに配置された調査サーバーを使用する要件と可能性を明確にするための調査活動を積極的に行っています。特に、ロシアのいくつかのグループはすでにリモートサイトにあるコンピューティングリソースを使用しています。

-Intel IT Galaxyコミュニティのメンバーは、「 IT @ Intelでの3日間」コンテストの受賞者がニジニノヴゴロドのIntelデータセンターについて知る機会があることをすでに知っています。 彼らはそこに何を見ることができますか、これは本当に深刻な現代のデータセンターですか？

-インテルのデータセンター開発戦略は、各データセンターが最新のテクノロジーを使用して編成され、装備されていることを意味し、その作成には多大な投資が行われています。したがって、私たちのデータセンターはいずれも、産業規模の換気、途切れない電力供給を確保するためのインフラストラクチャを組み込んだ深刻なソリューションです（バッテリーとディーゼル発電機の両方に基づいており、燃料が供給されている間、あなたが好きな限り持続することができます）。電力システムと冷却システムの実装の有効性の観点から、データセンターを配置する予定の場所を常に評価しています。

データセンターにあるシステムの状態は常に監視され、温度はエネルギー消費の観点から最適です（冷却に余分なお金が費やされるほど低くはありませんが、サーバーやその他の機器の機能にとっては絶対に安全です）。ところで、温度体制の境界は非常に狭く、それ自体がデータセンターの有能な組織の証拠です。あまり効率的に編成されていないデータセンターでは、温度変化に対するこのような狭いフレームワークを維持することは不可能です。ラックがそれらからの空気出口の方向に向けられ、空気の流れが冷却が可能な限り効率的になるように編成されている場合、ホットアイルとコールドアイルテクノロジーの使用を強調したいと思います。多くの要因が考慮され、ラック上のサーバーの物理的分布は、エネルギー消費、位相負荷、スペースが占めるスペースに関して最適化されます。たとえば、セキュリティ上の理由から、底部を降ろしたときに重い（重量で）サーバーがラックの上部に配置されていません。そうしないと、ラックの固定具が破損した場合、ラックが不均衡になり、わずかな揺れ（たとえば地震中）があっても転倒する可能性があります

当社のデータセンターは、常に高度な運用安全性を提供します。そこへのアクセスは慎重に監視され、従業員は一連のセキュリティトレーニングを受けます-データセンターの機器、その中に含まれるデータ、知的財産会社が所有するデータ、およびデータセンターの職員の物理的な安全、すべてのセキュリティ進行中の作業。

-担当地域にサーバーはいくつありますか、クラスターはありますか？

-各サイトのサーバーの数は、ローカルビジネスのニーズによって決まります。通常、これはビジネスの機能をサポートし、さまざまなIT機能を担当する、かなり少数の数十のインフラストラクチャサーバーです。さらに、サイト上の工学研究グループの数と、それらが解決するタスクの性質に応じて、かなりの数の研究サーバーがあり、その数は数百または数千に達することもあります。

ロシアで利用可能なサーバーハードウェアは、リソース集約型コンピューティングにも使用されます。もちろん、使用効率を高めるために、コンピューターはブレードシステムに基づくものを含むクラスターに結合されます。必要に応じて、このようなソリューションは各ブランチ内で適用できますが、最近ではリモートリソースを使用する傾向があります。たとえば、ニジニノヴゴロドでのコンピューティング用に非常に強力なクラスターを作成しましたが、一部のリソースを集中的に使用するバッチコンピューティングでは、それを使用することをお勧めします。他のサイトからバッチコンピューティングで大きなコンピューティングプールをダウンロードしようとしているという事実により、そこに配置されたリソースの十分に高い使用率を達成することができます。

ただし、リソースの地理的統合は、ローカルデータセンターの必要性を排除するものではありません。これまでのWANチャネルの遅延は、対話型アプリケーションのリモート実行には依然として高すぎるためです。インタラクティブな調査作業にリモートサーバーを使用することははるかに困難であり、100ミリ秒以上の遅延があってもユーザーは不快感を覚えます。ローカル作業の量により、サーバー容量を可能な限り効率的に使用できるとは限らないため、実験室のインタラクティブサーバーでは、現在、夜間に未使用のマシンを自動的にシャットダウンしたり、低電力サーバーを統合したりするなど、エネルギー効率を高めるための対策が講じられています。

-サーバーパークはどのくらいの頻度で更新されますか？ 新しいプラットフォームとテクノロジーの導入は、サーバーの数にどのように影響しますか？

-インテルは、サーバーを使用する4年サイクルを想定した戦略を実施しています。ライフサイクルの第1四半期には、新しい機器がデータセンターに設置され、現在のサービスがデータセンターに移行されます。次は、サーバーの通常の動作です。サーバーの寿命の3年目の終わりのどこかで、その廃止措置の計画が始まります。ライフサイクルの4年目の最後の四半期には、新しいシステムをインストールして古いシステムを交換し、サービスの移行、移行を計画しています。

興味深い点の1つは、使用するアーキテクチャとサーバーをどのように選択するかです。毎年、新しいテクノロジー、サーバーハードウェアの新しいモデル、新しいブランドが登場します。毎年、特定のプロジェクトのサービス所有者は、新しいプラットフォーム、さまざまなメーカーの機器を研究し、比較テストを実施しています。その結果、特定のサービスを整理するための「企業プラットフォーム」として承認されたサーバーモデルと構成が選択されます。つまり、選択した最適な構成は、年間を通じて適切なサービスの購入と展開に推奨されます。 1年後、手順が繰り返されます。

社内のコンピューティング機器の使用効率を改善することに関して、これは別の興味深いトピックです。ここでの作業は2つの方向に進みます。まず、コンピューティング能力を高めることでサーバーの数を減らしています。サーバーが深刻なコンピューティング作業で忙しい場合、これらのタスクに十分なコンピューティング能力が必要だとします。また、同じ量の「鉄」サーバーが実行する作業が少ないほど、エネルギー消費、冷却設備、それらが占有する敷地の容積に影響を与えます。現在、新しいIntel Xeonプロセッサを搭載したサーバーを積極的に購入して展開しています。これは、コンピューティングリソースを統合し、約1:10の比率で4年間のサーバーに置き換えるという点で非常に効果的です。

第二に、インフラストラクチャサーバーをどうするかという疑問が生じます。事実、ほとんどの場合、インフラストラクチャサーバーは最新のプロセッサの能力を十分に活用していないということです。たとえば、これらは通常I / Oでロードされるファイルサーバーであり、ディスクアレイでアクティブに動作するか、あまり使用されないサーバーをホストします。

もちろん、同社はそのような機器の使用効率の向上を目指しています。このために、仮想化が使用されます。新しいIntel Xeonプロセッサをベースにした強力なマシンを1台使用し、その上に複数の仮想サーバーを作成します。さらに、まったく同じマシンを使用し、同様の仮想サーバーをそのマシンに展開し、これらすべてをクラスターに結合すると、フェイルセーフシステムが得られます。 1つの「鉄」システムに障害が発生しても、仮想サーバーは引き続き動作します。仮想マシンがクラッシュした場合、システムに保存されているイメージからインフラストラクチャサーバーを簡単に復元するか、その機能を別の仮想サーバーに転送できます。仮想化に加えて、1台のマシンでのサービスの統合が使用されます。サービスが1つのワークグループで使用され、あまり集中的ではない場合、他のワークグループにインタビューし、たとえば、他のワークグループのサービスでホストするためにWebサーバーをロードします。サービスが重複しない場合は、仮想化せずに単一の物理サーバーに追加のサービスをインストールするだけで、必要に応じてプロセッサの効率を向上させます。まだ仮想化されていない特定のインフラストラクチャサーバーがあります。これらに関しては、このテクノロジはまだテスト中であり、これまでのところ、物理サーバーにサービスを残すための使用効率の観点から決定されています。

サポートするインフラストラクチャは、最大の安定性、現在のアプリケーションとの互換性、信頼性の高い使用を前提としています。特別なグループがすべての利用可能なソリューションを選択し、既存のインフラストラクチャサービスとの互換性をテストし、特定のサービスに推奨される企業プラットフォームとして特定のモデルと構成を承認します。

-コンピューティングサーバーで仮想化が使用されていますか？

-インフラストラクチャについて話すとき、会社のビジネス、オフィスの生計、プログラマーと開発者のパフォーマンスはインフラストラクチャサーバーに依存することを考慮します。実験室に関して言えば、ほとんどの場合、ITと開発者の両方にとって、それらは一種のテストの場として機能します。 , , . . . , , . , - .

— . , ?

— . . -. Nehalem, . , , , , - . , .

— Intel «- », - ?

— «- », , , . , . , , - . , «- », , Emergency Control Center .

— … , . , Intel , ?

— ', - - , . , , -, , , . , . , , , , .

- Intel -. , . , , . , , , .

— , - . - Intel?

— , . , , .

, , -. -, RAID-, , , . , . , , . , . . , «» , , . , .

, , . , - , , . . , , , Intel Xeon C5500 C3500.

— . - , . , - - , . , , . , . , IT , , . .

— , . ?

— , , . , -, . . , , . , , , .

— !

:) - ! , «» Intel, - .
頑張って！

Source: https://habr.com/ru/post/J101298/

All Articles

Intel Server Park、クラスター、およびデータセンターについて

More articles: