इतने प्रमाणित विफल-सुरक्षित डेटा केंद्र क्रैश क्यों करते हैं?



दो मुख्य दस्तावेज हैं जो डेटा सेंटर मानकों पर चर्चा करते समय सबसे अधिक बार उल्लेख किए जाते हैं: यह टीआईए 942 मानक और अपटाउन इंस्टीट्यूट द्वारा स्तरीय वर्गीकरण है। ये दोनों दस्तावेज स्तरों (टीयर) को विनियमित करते हैं, जिससे अक्सर भ्रम पैदा होता है: उदाहरण के लिए, टीआईए 942 के लिए टीयर III और अपटाइम इंस्टीट्यूट के लिए टीयर III दो बड़े अंतर हैं।

टीआईए बनाम अपटाइम


TIA 942 - दूरसंचार उद्योग संघ - डेटा केंद्रों के लिए दूरसंचार अवसंरचना मानक:


Uptime Institute - टीयर क्लासिफिकेशन, साइट इन्फ्रास्ट्रक्चर प्रदर्शन को परिभाषित करें


उसी समय, यह टीआईए 942 में स्तरों का वर्गीकरण है जो कि अपटाइम इंस्टीट्यूट द्वारा प्रस्तावित किया गया था, और संक्षेप में वे बहुत समान हैं। इसी समय, मूल्यांकन के सिद्धांत मौलिक रूप से भिन्न हैं। एक बार फिर: टीआईए कहता है "जैसा लिखा है वैसा ही करो और सब ठीक हो जाएगा", अपटाइम इंस्टीट्यूट कहता है, "आपको किसी भी तरीके से सबकुछ ठीक होना चाहिए, दिए गए सिद्धांतों के अनुसार, और फिर हम जांच करेंगे कि यह काम करता है।"

स्तर I-IV


मूल रूप से, TIA 942 मानक के लिए, और Uptime संस्थान पद्धति के लिए, स्तरों द्वारा वर्गीकरण समान है । उन्हें मोटे तौर पर इस प्रकार वर्णित किया जा सकता है:


एक उदाहरण के रूप में: यदि हम पाइप के माध्यम से तरल शीतलक के वितरण के साथ एक प्रणाली बनाते हैं, तो टियर III में आपको एक डबल रिंग बनाने की आवश्यकता होती है, और टियर II में आप एक कर सकते हैं। इसी समय, चिलर और प्रशंसक कॉइल के अतिरेक का स्तर समान हो सकता है। वही बिजली की आपूर्ति और अन्य प्रणालियों के लिए जाता है। स्तर IV पर यह और भी ठंडा है: उदाहरण के लिए, यूपीएस और बिजली की आपूर्ति लाइनों को न केवल डुप्लिकेट किया जाना चाहिए, बल्कि अलग-अलग कमरों में भी फैलाया जाना चाहिए: यदि पहली इकाई में विस्फोट होता है (आपातकालीन स्थिति, अनुसूचित स्टॉप नहीं), तो दूसरा क्षतिग्रस्त नहीं होना चाहिए। यदि पाइपलाइन किसी जगह पर टूट जाती है, तो यह किसी भी तरह से बैकअप इलेक्ट्रॉनिक्स को प्रभावित नहीं करता है - सिस्टम का एक भौतिक पृथक्करण है।

एक दार्शनिक भाषा (बहुत अशिष्ट) में बोलते हुए, स्तर इस तरह दिखते हैं: पहला काम करता है और असफल हो सकता है, दूसरा सामान्य रूप से काम करता है और कुछ सबसे आम विफलताओं का सामना कर सकता है, तीसरा किसी भी विषम परिस्थितियों में जीवित रहता है, चौथा सैन्य परिस्थितियों में काम के लिए उपयुक्त है।

इसी समय, संयुक्त राज्य अमेरिका के लिए, एक वस्तु की लागत निम्नानुसार भिन्न होती है: 30K, 50K, 65K और 100K डॉलर प्रति रैक (ये स्तरों के बीच लागत अनुपात का आकलन करने के लिए बहुत अनुमानित आंकड़े हैं)। रूस में, यह आमतौर पर और भी महंगा है। इस प्रकार, यदि आप टियर II और टियर III के बीच चयन करते हैं, तो बजट बहुत अधिक नहीं बढ़ता है, लेकिन अपटाइम पर्याप्त से अधिक है। लेकिन सवाल यह भी नहीं है कि लागत क्या है, लेकिन कैसे सही ढंग से सब कुछ डिज़ाइन किया गया है और मौके पर परिचालन समस्याओं से सुरक्षित है।



इन मानकों की आवश्यकता क्यों है?


हमने 90 के दशक की शुरुआत में डेटा केंद्रों के लिए वर्गीकरण मानकों के बारे में सोचा था: तब अपटाइम इंस्टीट्यूट ने गलती-सहिष्णु सुविधाओं के निर्माण के बुनियादी सिद्धांतों को कागज पर लिखना शुरू किया। Uptime Institute का कार्य मुसीबत मुक्त उच्च तकनीक सुविधाओं के निर्माण की कार्यप्रणाली का अध्ययन करना और हर समस्या की जांच करना था, जिसके कारण डेटा सेंटर से इनकार कर दिया गया था। लॉन्च के समय, कंपनी ने 70 के दशक के बाद से डेटा सेंटर और उनके "गर्म ट्यूब समकक्षों" के निर्माण में अनुभव का दस्तावेजीकरण किया था, और वे कंप्यूटर सेंटर बहुत बड़े पैमाने पर और काफी दोष सहिष्णु थे। इन केंद्रों में मुख्य समस्याओं पर आंकड़े भी थे: प्रसिद्ध कीट से लेकर विभिन्न प्रकार की छोटी-मोटी मरम्मत।

नतीजतन, लगभग 95 वें वर्ष में, डेटा केंद्रों का वर्गीकरण उनकी गलती सहिष्णुता के आधार पर, स्तरों द्वारा प्रस्तावित किया गया था। यह वर्गीकरण प्रस्तावित किया गया था ताकि ग्राहक कार्य के अनुरूप अपनी आवश्यकताओं को पूरा करने वाले बुनियादी ढांचे का चयन कर सकें। मोटे तौर पर, यदि कोई ग्राहक एक कॉल सेंटर का निर्माण कर रहा है, तो उसे चार नाइन (99.99% अपटाइम) पर उपलब्धता के बारे में सोचने की ज़रूरत नहीं है, लेकिन अगर डेटा सेंटर, जहां बैंक के व्यवसाय के लिए महत्वपूर्ण सिस्टम चल रहे हैं, तो हाँ, फिर इसके लायक है। इस वर्गीकरण को टीआईए 942 के पहले संस्करण में ध्यान में रखा गया था।

96 में, पहला दस्तावेज़ अपटाइम इंस्टीट्यूट पद्धति के उपयोग से कंप्यूटर केंद्रों के इंजीनियरिंग बुनियादी ढांचे की आवश्यकताओं का वर्णन करता हुआ दिखाई दिया। चार मुख्य स्तरों को विफलता के आंकड़ों और संगठन के अनुभव के आधार पर पेश किया गया था। गलती सहिष्णुता स्तर ने एक संभावित अपटाइम का संकेत दिया, और मध्यवर्ती चरणों के बिना: अर्थात्, कोई II + और III + नहीं थे और नहीं - भले ही, एक भी नकल नहीं वाल्व के कारण, बहुत महत्वपूर्ण बैकअप सिस्टम पर नहीं, ट्रिपल अभी भी सौंपा गया है - दो। दरअसल, यह इस प्रकार है कि अब स्तर कैसे सौंपा गया है, इसलिए टियर II + के बारे में शब्द स्वामी की व्यक्तिगत कल्पना हैं, और यह मानक से संबंधित नहीं है।

दस्तावेजों द्वारा उपयोग की जाने वाली मूल अवधारणाएं आरक्षण हैं, सुविधा के संचालन को बाधित किए बिना नोड्स की सेवा करने की क्षमता, विफलताओं और दुर्घटनाओं के लिए प्रतिरोध। इसी समय, हमारी वास्तविकता के लिए बहुत ही असामान्य चीजों को पोस्ट किया गया है: उदाहरण के लिए, Uptime मानक के अनुसार, यह माना जाता है कि I और II के स्तर पर, शहर नेटवर्क से बिजली का मुख्य स्रोत बिजली हो सकता है, लेकिन III और IV के स्तर के लिए नहीं। मानक के इस स्तर पर शहर अचानक विश्वसनीय होना बंद हो जाता है और इसे केवल लागत प्रभावी अतिरिक्त शक्ति स्रोत के रूप में माना जाता है। उसी समय, डीजीयू प्रणाली को पूर्ण शक्ति से संचालन प्रदान करना चाहिए, अवधि पर प्रतिबंध के बिना।

टीआईए बनाने का लक्ष्य डिजाइन इंजीनियरों की मदद करना है ताकि वे अपने स्वयं के कुछ का आविष्कार न करें, लेकिन मानक में प्रस्तावित डिजाइन, कई बड़ी वस्तुओं को बनाने में अनुभव को ध्यान में रखते हुए। मानक बेहतरीन तकनीकों और समाधानों का चित्रण और वर्णन करता है। इसके भाग के लिए, Uptime उन सिद्धांतों पर ध्यान केंद्रित करता है जिनके द्वारा कार्यान्वयन किसी दिए गए दोष सहिष्णुता को प्राप्त करना संभव है।

यहां अंतर है : टीआईए महान विस्तार से दिखाता है कि संरचित केबल सिस्टम, डेटा संचार और एक अन्य इंजीनियर को कैसे व्यवस्थित किया जाए (जो तर्कसंगत है, क्योंकि इन चीजों में सर्वोत्तम अभ्यास से युक्तियां बहुत महत्वपूर्ण हैं)। उदाहरण के लिए, Uptime एससीएस या बिजली की आपूर्ति पर ध्यान केंद्रित नहीं करता है, उदाहरण के लिए, लेकिन समग्र रूप से डेटा सेंटर में उपकरणों की दोष सहिष्णुता पर सभी इंजीनियरिंग प्रणालियों के प्रभाव पर विचार करता है। या फिर (सबसे आम गलतफहमियों में से एक का खंडन करते हुए): अपटाइम, वास्तव में, किसी साइट की पसंद को विनियमित नहीं करता है, "केवल हमने देखा है कि टियर IV डीपीसी में आमतौर पर ऐसी साइटें होती हैं, इन के साथ III, आदि।" n। "

अभ्यास


Uptime पर प्रमाणीकरण के लिए डेटा केंद्र तैयार करने के हमारे अभ्यास में, कई "अप्रत्याशित लोग" सामने आए। उदाहरण के लिए, जब उन्होंने टियर III के अनुसार अपने स्वयं के डेटा केंद्र को प्रमाणित किया - तो डीजल जनरेटर ( विवरण यहाँ हैं ) के सिंक्रनाइज़ेशन को प्रबंधित करने के लिए काफी विशिष्ट संगठन लिया - वास्तव में, कुछ लोगों ने इसके बारे में भी सोचा था। या यहाँ एक और "अप्रत्याशित" उदाहरण से: निर्बाध विद्युत प्रणालियों को डिजाइन करते समय, वे आमतौर पर बैटरी के प्रकार, क्षमता, जकड़न, सर्विसबिलिटी, और इसी तरह देखते हैं - अर्थात, बैटरी के केवल मूल मापदंडों पर विचार किया जाता है। वास्तव में, डेटा सेंटर के डिजाइन को अधिक "सूक्ष्म" विशेषताओं को ध्यान में रखना चाहिए। उदाहरण के लिए, बैटरी में अलग-अलग डिस्चार्ज कर्व्स होते हैं (मोटे तौर पर बोलना, अलग-अलग डिस्चार्ज स्पीड में अलग-अलग कैपेसिटी) - एक आंशिक लोड पर सब कुछ ठीक है, लेकिन फुल लोड पर सिस्टम निर्धारित समय तक नहीं चल पाएगा, डीजल जनरेटर के पास आवश्यक मोड तक पहुंचने का समय नहीं होगा, और विफलता उत्पन्न होगी।

और यहां ग्राहकों में से एक के अभ्यास से एक उदाहरण है: कागज पर कोई भी डीजल ईंधन के बिंदु पर नहीं जाता है। मोटे तौर पर, जनरेटर हैं, बैकअप ईंधन वितरण लाइनें हैं, और एक धूपघड़ी एक धूपघड़ी है, मुख्य बात समय पर शीर्ष करना है। डेटा सेंटर को टीआईए के अनुरूप माना जा सकता है। लेकिन व्यवहार में, हमारे देश में डीजल ईंधन में कुछ जादुई गुण हैं, और डीजल अच्छी तरह से डूब सकते हैं । यह परिचालन स्तर सत्यापन के साथ असंगत है। मोटे तौर पर, टीआईए ने कभी यह सवाल नहीं उठाया कि "डीजल ईंधन के बजाय टैंक में पानी है तो क्या होगा?" और "पिछली बार जब आपने ईंधन बदला था?" अपटाइम इंस्टीट्यूट के पास एक डिबग टीम है जिसे अभ्यास में ऐसी चीजों का परीक्षण करने के लिए डिज़ाइन किया गया है। लोगों ने इस तथ्य को ध्यान में रखा और अब वे न केवल इस तथ्य के बारे में जानते हैं कि ईंधन अचानक विफल हो सकता है (पद्धति के अनुसार ऐसा है), लेकिन वे यह भी ध्यान में रखते हैं कि वास्तव में कैसे।

स्पष्ट रूप से, सब कुछ सत्यापित नहीं किया जा सकता है। उदाहरण के लिए, हमेशा एक मानवीय कारक होता है जो बेहद अप्रत्याशित परिस्थितियों का निर्माण करता है। इंजीनियरों के बीच एक ऐसी बाइक है जो इज़राइल में 2000 के दशक में भी एक बड़ी आईटी कंपनी के डेटा केंद्रों में से एक नए साल में हमारे हमवतन की बदौलत बंद हो गई। उन्होंने छुट्टी मनाई, शिफ्ट पर ही सही, फिर पीना जारी रखा। आधी रात के बाद, शहर से भोजन गायब हो गया, और डिसेल्स काट दिया गया (मानव की भागीदारी की आवश्यकता नहीं थी, ऑटोमैटिक्स ने काम किया)। लेकिन नायक को किसी तरह शोर से रोका गया, और उसने आराम से अपने वातावरण को जारी रखने के लिए गलती से सभी जनरेटर को बाहर कर दिया। कहानी की कोई आधिकारिक पुष्टि नहीं है, लेकिन किसी कारण से मैं इसमें विश्वास करता हूं, अगर केवल एक अत्यंत जंगली और अतार्किक स्थिति का उदाहरण हो।

स्वचालन


और अंत में - मानकों में स्वचालन के संगठन पर कोई सिफारिश नहीं है जो आपातकालीन स्थितियों में काम करता है और कर्मियों के संगठन जैसे आपातकालीन सेवाओं पर सिफारिशें करता है। हम घर पर अच्छे पुराने "सोवियत" दृष्टिकोण का उपयोग करते हैं, जब सब कुछ बेहद सरलता से और मज़बूती से किया जाता है, लगभग एक रिले पर: अपने स्वयं के तर्क के साथ कोई जटिल माइक्रोकंट्रोलर और "मशीन विद्रोह" नहीं। हम स्वचालन को उस स्थिति में लाते हैं जहां स्थिति अस्पष्ट है और आपको मानवीय प्रतिक्रिया की गति से अधिक गति की आवश्यकता है। इस मामले में, सब कुछ जहां एक संतुलित निर्णय की आवश्यकता होती है, मैनुअल नियंत्रण के लिए छोड़ दिया जाता है। एक निजी उदाहरण के रूप में, स्वचालन शहर से डीजल इंजन तक स्विच करता है। डीजल इंजन से वापस शहर में स्थानांतरित (इंजन बंद होने के साथ) स्थापना पर हाथों से सख्ती से किया जाता है, और इंटरफ़ेस पर क्लिक करके नहीं। कार्य यह सुनिश्चित करना है कि महत्वपूर्ण कार्य "ऑटोपायलट" पर नहीं किए जाते हैं: लोगों द्वारा पहले क्या किया जाता है और उसके बाद क्या होता है, इसके कारण बहुत सारी दुर्घटनाएं ठीक होती हैं। दरअसल, मेरा मानना ​​है कि अगर डेटा सेंटर में कोई पेशेवर है जो अच्छा काम करता है, तो यह बहुत महत्वपूर्ण है और सबसे महत्वपूर्ण बात यह है कि सबसे बुद्धिमान इंजीनियरिंग समाधानों की तुलना में अधिक विश्वसनीय है।

सारांश


तो एक प्रमाणित डेटा केंद्र क्यों उठ सकता है? इसका उत्तर यह है क्योंकि समान स्तर के नामों (उदाहरण के लिए, टियर II) के साथ, साइट पर सत्यापन के बिना एक परियोजना के प्रमाणीकरण और विशिष्ट साइट पर विशिष्ट सत्यापन के साथ एक कार्यस्थल के प्रमाणीकरण के बीच एक बड़ा अंतर है। यदि आप पूरी तरह से नहीं समझते हैं कि डेटा सेंटर कैसे प्रमाणित होता है (TIA या Uptime के अनुसार), तो आपको यहां प्रमाणीकरण की जांच करनी चाहिए।

हां, आप हमारे मुख्य भूमिका में बढ़े हुए जिम्मेदारी के डेटा सेंटर के साथ गीक पोर्न देख सकते हैं। यहां तक ​​कि अगर आप पहले से ही इस विषय में रहे हैं, तो, शायद, कुछ चीजों को समझाने के बाद ध्यान दें कि क्या और क्यों किया गया था अपटाइम इंस्टीट्यूट पद्धति के अनुसार।

Source: https://habr.com/ru/post/In157099/


All Articles