डेटा सेंटर जोखिम: निरर्थक इंजीनियरिंग सिस्टम

आपको टूटने से पहले मरम्मत शुरू करने की आवश्यकता है - टूटी हुई मरम्मत के लिए बहुत अधिक अनिच्छुक है।
यूरी तातर्किन
विश्वसनीय दीवारों और आपके सिर पर एक छत डेटा सेंटर (लेख "डेटा सेंटर रिस्क: एक स्थान चुनना" ) के लिए प्रदान की जाती है, इसके दोष सहिष्णुता सुनिश्चित करने में अगला कदम इंजीनियरिंग सिस्टम का बैकअप होना चाहिए। 10 से अधिक वर्षों के लिए डेटा केंद्रों का निर्माण करते समय, हम आश्वस्त थे कि सभी ग्राहक बुनियादी संचार के दोहराव के महत्व से पूरी तरह परिचित नहीं हैं। स्पेसशिप गिर रहे हैं, और डेटा सेंटर में उपकरण आदर्श रूप से वर्ष में 365 दिन और दिन में 24 घंटे काम करना चाहिए। कोई भी हिस्सा जो ऑर्डर से बाहर है या रखरखाव की आवश्यकता है, को सभी महत्वपूर्ण सेवाओं में रुकावट के बिना प्रतिस्थापित किया जाना चाहिए।

जैसा कि हमारे पाठकों ने सही उल्लेख किया है, सभी कंपनियों को एक विश्वसनीय डेटा केंद्र की आवश्यकता नहीं है। कुछ के लिए, इसका सुचारू संचालन चिंता का विषय नहीं है, और कई अपने डेटा को सार्वजनिक क्लाउड में संग्रहीत करना पसंद करेंगे। यह जनता उन लोगों के लिए अधिक हद तक इरादा है, जो एक कारण या किसी अन्य के लिए, संचार चैनलों की सुरक्षा या धैर्य ने अपने स्वयं के डेटा केंद्र और कम से कम तीन नाइनों की उपलब्धता के स्तर (प्रति वर्ष 1.6 घंटे से अधिक नहीं) के साथ सेवाओं के काम के पक्ष में अपनी पसंद बनाई। ।

दोष सहिष्णुता और अतिरेक: दुनिया के अनुभव क्या कहते हैं?


Uptime संस्थान के मानकों के अनुसार, डेटा सेंटर के बुनियादी ढांचे में दोष सहिष्णुता के चार स्तर हैं:


टीयर वर्गीकरण का उपयोग करने से तात्पर्य है कि डीजल जनरेटर के लिए ईंधन की आपूर्ति तक सभी इंजीनियरिंग सिस्टम और डेटा सेंटर घटक, एक पूरे के रूप में माना जाता है। कम से कम एक गैर-निरर्थक घटक की उपस्थिति दोष सहिष्णुता के स्तर में कमी और डेटा सेंटर के संभावित डाउनटाइम में वृद्धि की ओर जाता है। इस तरह के घटकों की संख्या, साथ ही प्रति वर्ष डेटा केंद्रों की योजनाबद्ध और अनिर्धारित विफलताओं के आंकड़े, स्वीकार्य डाउनटाइम को प्रभावित करते हैं। उदाहरण के लिए, एक टीयर I डेटा सेंटर को प्रति वर्ष 1.2 बार अनियोजित आउटेज की विशेषता है। साथ ही, बैकअप सिस्टम की कमी के कारण, डेटा केंद्र निर्धारित रखरखाव के दौरान बारह घंटे के लिए दो बार काम नहीं करेगा। परिणामस्वरूप, कुल डाउनटाइम की गणना इस प्रकार की जाएगी: 12 + 12 + 4x1.2 = 28.8 घंटे।

दोष सहिष्णुता के प्रतिशत की गणना करने के लिए, आपको आवश्यकता है: ((t work - t downtime) × 100%) / t कार्य, जहाँ
t काम - प्रति वर्ष डेटा सेंटर घंटे की अधिकतम संख्या (24 घंटे एक दिन, 365 दिन एक वर्ष)।
t डाउनटाइम - यह प्रति वर्ष डेटा सेंटर का नियोजित डाउनटाइम है।

बैकअप विधियों को वर्गीकृत करते समय, यह निम्नलिखित योजनाओं को अलग करने के लिए प्रथागत है: एन + 1, 2 एन, और 2 (एन + 1)। 2N की तुलना में N + 1 और N + 2 योजनाओं का उपयोग महत्वपूर्ण बजट बचत देता है और अच्छे स्तर की गलती सहिष्णुता के साथ (सिस्टम के सभी तत्व एक बार में विफल होने की संभावना नहीं है)। हालांकि, यह याद रखना चाहिए कि कार्य इकाइयों (एन) की संख्या में वृद्धि के साथ, संभावना सिद्धांत के अनुसार, सिस्टम की उपलब्धता बिगड़ती है। तत्वों की एक बड़ी संख्या की स्थिति में (बड़े एन, उदाहरण के लिए, निर्बाध बिजली की आपूर्ति), सिस्टम के प्रत्येक घटक को पूरी तरह से डुप्लिकेट होने पर 2N योजना का उपयोग करना अधिक उपयुक्त है। यह गलती से सहिष्णुता को बढ़ाएगा और डाउनटाइम को कम करेगा। इसी समय, न तो N + 1 और न ही 2N सिस्टम को संपूर्ण रूप से आरक्षित करते हैं, और इसलिए आरक्षित सिस्टम तत्वों के बीच के क्षेत्र में दुर्घटना के खतरे को बाहर नहीं करते हैं। इसलिए, टियर IV 2 स्वतंत्र सर्किट का उपयोग करने की सलाह देता है, जिनमें से प्रत्येक को पूरी तरह से डुप्लिकेट किया गया है, 2 (एन + 1)।

अटूट ऊर्जा


डेटा सेंटर के विश्वसनीय संचालन का आधार बिजली की आपूर्ति है: निर्बाध (निर्बाध बिजली की आपूर्ति - यूपीएस) और गारंटीकृत (डीजल जनरेटर सेट - डीजीयू)। शहरी नेटवर्क के वोल्टेज के गायब होने के समय, UPS को उपकरणों की बिजली आपूर्ति का समर्थन करना चाहिए जब तक कि DGU पूरी तरह से लॉन्च नहीं हो जाता है, जो पूरे डेटा सेंटर को बिजली प्रदान कर सकता है।
बिजली की आपूर्ति के अभाव में डेटा सेंटर के खड़े न होने के लिए, सबसे पहले, एक यूपीएस को आरक्षित करना और दूसरा, नियमित रखरखाव के काम को अंजाम देना बेहद जरूरी है।

केवल एक यूपीएस से जो जोखिम हो सकते हैं, वे आमतौर पर समझ में आते हैं। सबसे अच्छे मामले में, हम स्रोत का परीक्षण नहीं कर पाएंगे, सबसे खराब में, हमें एक सरल डेटा सेंटर मिलेगा। लेकिन कभी-कभी कई यूपीएस की उपस्थिति भी कार्रवाई की स्वतंत्रता नहीं देती है। इसलिए डेटा सेंटर में स्रोतों के एक संगठन में दो थे, लेकिन प्रत्येक ने केवल अपने स्वयं के समूह को खिलाया, और एक दूसरे के लिए आरक्षित के रूप में काम नहीं किया। रखरखाव के दौरान, सेवा इंजीनियर ने उसकी पीठ को पकड़ लिया। गिरते हुए, वह किसी तरह यूपीएस के उत्पादन को बढ़ाने में कामयाब रहे। और, क्षुद्रता के नियम के अनुसार, एक स्रोत जो एक कार्य दिवस की ऊंचाई पर बंद हो गया, सबसे महत्वपूर्ण अनुप्रयोगों के साथ सर्वरों के एक समूह को सक्रिय कर दिया।
डीजल जनरेटर (पीबी) का "कॉम्बैट" लॉन्च - बाहरी नेटवर्क गायब होने पर डीजल जनरेटर को स्वचालित मोड में शुरू करने की संभावना की जांच करना। यह डेटा सेंटर की बाहरी शक्ति के पूर्ण बंद का अनुकरण करके किया जाता है। डीजल जनरेटर सर्वर उपकरणों की शुरुआत से बिजली बंद होने का समय यूपीएस बैटरी (आमतौर पर 1-3 मिनट) पर चलता है।

लोड (पीएन) के तहत डीजल जनरेटर शुरू करना - इससे जुड़े उपकरणों की शक्ति का समर्थन करने के लिए डीजल जनरेटर की क्षमता की जांच करना। इसे शुरू करने और सामान्य ऑपरेशन पूरा होने के बाद जनरेटर (कंट्रोल पैनल का उपयोग करके) पर लोड को मैन्युअल रूप से स्विच करके किया जाता है। एबीपी स्विच करने के समय, सर्वर उपकरण यूपीएस बैटरी (लगभग 0.3-1 सेकंड) द्वारा संचालित होता है। वैसे, डीजल जनरेटर सेट पर लोड को स्विच करने के लिए मोटर ड्राइव का उपयोग करना बेहतर होता है, हालांकि वे अधिक धीमी गति से काम करते हैं, उनकी सेवा जीवन और विश्वसनीयता अधिक होती है।

अवांछित डाउनटाइम को रोकने के लिए नियमित, व्यापक सेवा कार्य की आवश्यकता होती है। डेटा केंद्रों में से एक में, केवल डीजल जनरेटर सेट के संबंध में चेक किए गए थे। यूपीएस ने नियमित रूप से 10 मिनट की स्वायत्तता दिखाई, लेकिन किसी ने भी इसकी सेवा नहीं ली। उस समय तक, बैटरियों की आयु 5 वर्ष से अधिक हो गई थी, और युद्ध के दौरान एक लॉन्च के दौरान, वे केवल 29 सेकंड में काम करने में सक्षम थे। जबकि DGU शुरू हुआ और केवल 33 सेकंड के बाद लोड पर लेने में सक्षम था। इसके अलावा, सभी उपकरण एक यूपीएस द्वारा संचालित थे (यह बजटीय बाधाओं के कारण कार्यान्वयन चरण में दूसरे को मना करने का निर्णय लिया गया था)। परिणाम एक डेटा सेंटर ड्रॉप है। सभी कंप्यूटिंग प्रणालियों की पूरी वसूली में लगभग 12 घंटे लगे।

मुख्य गलतियाँ:
• दूसरे यूपीएस से कार्यान्वयन चरण में विफलता। कठिन समय समाप्त हो गया है, लेकिन दूसरा यूपीएस कभी नहीं खरीदा गया था।
• डाटा सेंटर की सभी इंजीनियरिंग प्रणालियों के व्यापक रखरखाव का अभाव। यूपीएस की नियमित सर्विसिंग के साथ, उनकी असंतोषजनक स्थिति पहले से ज्ञात हो जाएगी।
• इसके संचालन के दौरान डेटा केंद्रों की योजनाबद्ध रखरखाव और अराजकता के लिए नियमों का अभाव।

वर्तमान प्रवास पथ


क्या आपके यूपीएस सुरक्षित और नियमित रूप से सेवित हैं? अच्छा किया, लेकिन वहाँ रोकने की कोशिश मत करो! रिजर्व भी डेटा सेंटर की बिजली आपूर्ति की केबल लाइनों, और 2 एटीएस स्थापित करते हैं, जो पूरी तरह से एक दूसरे को आरक्षित करते हैं। आदर्श रूप से, उन्हें विभिन्न स्वतंत्र विद्युत पैनलों से जोड़ा जाना चाहिए। एक चरम मामले में, आप एक पैनल बोर्ड से दो लाइनें खींच सकते हैं ताकि स्थिति हमारे ग्राहकों में से एक की तरह बाहर न निकले।

एक छोटे लेकिन महत्वपूर्ण डेटा केंद्र में प्रेषण प्रणाली की शुरुआत करते समय, मुख्य इनपुट पर वर्तमान ट्रांसफार्मर डालना आवश्यक था। समस्या यह थी कि केवल एक इनपुट था, और डेटा सेंटर को डी-एनर्जेट करना असंभव था। पूरी तैयारी के बाद बिजली बंद कर दी गई। जब डेटा सेंटर उपकरण बैटरी पर चल रहे थे, तो इंस्टॉलरों ने अथक रूप से काम किया, और इंजीनियर ने अपने माथे से पसीना पोंछते हुए, यूपीएस डिस्प्ले पर मिनटों की गिनती की।

मुख्य गलतियाँ:
• प्रेषण प्रणाली डिजाइन के दौरान अवांछनीय रूप से भूल गई थी।
• डेटा सेंटर पावर लाइन को आरक्षित नहीं किया गया है।

यह गर्म हो गया


चिलर-फैन कॉइल सिस्टम एक एयर कंडीशनिंग सिस्टम है जिसमें केंद्रीय प्रशीतन मशीन (चिलर) और स्थानीय हीट एक्सचेंजर्स (फैन कॉइल) के बीच का शीतलक अपेक्षाकृत कम दबाव में ठंडा तरल परिचालित होता है - साधारण पानी (उष्णकटिबंधीय जलवायु में या एथिलीन ग्लाइकॉल का एक जलीय घोल में) समशीतोष्ण और ठंडी जलवायु)।

एयर कंडीशनिंग सिस्टम के आरक्षण के बारे में मत भूलना। पिछले दो महीनों में, मैंने चिलर और ड्राई कूलर के बीच अनावश्यक मार्गों के बिना चिलर-फैन कॉइल सिस्टम का उपयोग करके डेटा सेंटर की दो परियोजनाओं को ठंडा करते देखा है। संभावना के उच्च स्तर के साथ वास्तविक जीवन में इस समाधान का उपयोग करने से एक सरल डेटा केंद्र बन जाता है। शीतलक प्रतिस्थापन (जो असामान्य नहीं है) के मामले में, केवल एक बैकअप मार्ग शीतलन प्रणाली की संचालन क्षमता को बनाए रख सकता है, और इसलिए संपूर्ण डेटा केंद्र।

एक और बहुत महत्वपूर्ण बिंदु बाहरी और आंतरिक शीतलन सर्किट का पृथक्करण है। तो सातवीं मंजिल की छत पर एक परियोजना में दो दो टन के चिलर, एक कोल्ड स्टोरेज टैंक और एक शक्तिशाली बूस्टर पंप स्टेशन स्थापित करने का प्रस्ताव था। दो सौ मीटर लंबी आपूर्ति और वापसी की छत से सीधे डेटा सेंटर में शीतलन इकाइयों के लिए योजना बनाई गई थी, जो तहखाने में स्थित थी। नतीजतन, पाइप में एक छोटे से ब्रेक या आंतरिक शीतलन इकाइयों के ढीले कनेक्शन के साथ भी, दबाव में सभी दस टन एथिलीन ग्लाइकोल ग्राहक के डेटा केंद्र और विद्युत पैनल को बाढ़ कर सकता है।

न केवल कंप्यूटिंग उपकरण, बल्कि मुख्य इंजीनियरिंग सिस्टम का भी बैकअप लेना न भूलें और अपने डाटा सेंटर को हमेशा के लिए काम करने दें!

Source: https://habr.com/ru/post/In190544/


All Articles