☀️ 🌶️ 💿 मध्यम बजट के भीतर बड़ी मात्रा में डेटा को सुरक्षित रूप से कैसे संग्रहीत किया जाए ✊🏼 🥉 👩🏿‍🎤

शुभ दोपहर, हब्बर! आज हम इस बारे में बात करेंगे कि डेटा वॉल्यूम की वृद्धि के कारण भंडारण की आवश्यकताएं कैसे बदल रही हैं और क्यों हम जिन पारंपरिक प्रणालियों पर भरोसा करते हैं वे अब क्षमता विस्तार के साथ सामना नहीं कर सकते हैं और विश्वसनीय भंडारण सुनिश्चित कर सकते हैं। लंबे ब्रेक के बाद यह मेरी पहली पोस्ट है, इसलिए सिर्फ इस मामले में कि मैं खुद को पेश करता हूं - मैं ओलेग मिखाल्स्की, एक्रोनिस उत्पाद निदेशक हूं।

यदि आप उद्योग में रुझानों का पालन करते हैं, तो आप शायद पहले से ही इस तरह की अवधारणा में आते हैं जैसे कि सॉफ्टवेयर कुछ भी परिभाषित करता है। इस अवधारणा में आईटी इन्फ्रास्ट्रक्चर के प्रमुख कार्यों के सॉफ्टवेयर स्तर पर स्थानांतरण, इसकी स्केलेबिलिटी, प्रबंधन क्षमता, विश्वसनीयता और अन्य भागों के साथ सहभागिता सुनिश्चित करना शामिल है। गार्टनर के नाम सॉफ्टवेयर डिफाइंड 2014 के 10 प्रमुख रुझानों में से कुछ भी, और IDC ने पहले से ही सॉफ्टवेयर डिफाइन्ड स्टोरेज सेगमेंट की एक विशेष समीक्षा प्रकाशित की है और भविष्यवाणी की है कि 2015 तक केवल 1.8 बिलियन डॉलर इस प्रकार के वाणिज्यिक समाधानों के लिए खरीदे जाएंगे। यह इस नए प्रकार के स्टोरेज सिस्टम के बारे में है जिस पर आगे चर्चा की जाएगी।

आरंभ करने के लिए, आइए डेटा वृद्धि के आंकड़ों को देखें और कुछ निष्कर्ष निकालें। कुछ साल पहले, दुनिया भर में बनाए गए डेटा की मात्रा 1 zettabyte से अधिक थी - यह लगभग 1 बिलियन से भरी हार्ड ड्राइव है, जिसमें 1 टीबी की क्षमता है, और पहले से ही उपलब्ध सभी स्टोरेज स्पेस से अधिक है। ईएमसी के पूर्वानुमान के अनुसार - भंडारण बाजार में विश्व के नेता, मौजूदा दशक में, डेटा की मात्रा में 50 गुना की वृद्धि होगी, जिससे भंडारण स्थान की कमी होगी
60% से अधिक।

_{चित्र: निर्मित जानकारी को संग्रहीत करने के लिए अंतरिक्ष घाटा बढ़ता है}
^{स्रोत: आईडीसी डिजिटल यूनिवर्स दशक - क्या आप तैयार हैं?} ⁽²⁰¹⁰⁾

कितना और क्यों?

सूचना संस्करणों की हिमस्खलन वृद्धि के कारण क्या हैं:

नई जानकारी बनाना अब पहले की तुलना में बहुत सस्ता है: भंडारण और प्रसंस्करण की लागत 2005 के बाद से 6 गुना कम हो गई है
एक ही समय में आईटी बजट डेढ़ गुना बढ़ गया
2020 तक, सूचना बनाने वाले उपकरणों की संख्या 8 गुना बढ़ जाएगी: सभी प्रकार के सेंसर और स्मार्ट डिवाइस उपकरणों के लिए उच्च रिज़ॉल्यूशन वाले स्मार्टफोन और कैमरे
अतिरिक्त जानकारी पहले से निर्मित के व्युत्पन्न के रूप में बनाई गई है - मुख्य रूप से बैकअप, साथ ही लॉग, डिजिटल ऑडियो, वीडियो के अभिलेखागार

बदले में, भंडारण स्थान की कमी को इस तथ्य से समझाया जाता है कि हार्डवेयर स्टोरेज सिस्टम लंबे समय तक तेजी से, उच्चतर, मजबूत के सिद्धांत पर विकसित हुआ है - अर्थात्, टेप से लेकर बड़े डिस्क, तेज डिस्क, फ्लैश ड्राइव, विभिन्न ड्राइव के लिए कई अलमारियों से सिस्टम प्रकार और गति। और बड़े बजट वाली कंपनियों की जरूरतों के लिए भंडारण अनुकूलन को तेज किया गया था - वर्चुअलाइजेशन के लिए तेजी से भंडारण, वास्तविक समय डेटा प्रसंस्करण के लिए सुपर-फास्ट भंडारण, विशिष्ट व्यावसायिक अनुप्रयोगों के लिए अनुकूलन के साथ स्मार्ट भंडारण। उसी समय, बैकअप, अभिलेखागार और लॉग के बारे में जो सीधे व्यावसायिक मूल्य नहीं बनाते हैं और बस स्थान लेते हैं, ग्राहकों को लगता है कि भूल गए हैं, और भंडारण निर्माताओं ने नहीं सोचा था (हार्डवेयर भंडारण विक्रेता का नाम, जो विशेष रूप से "सबसे सस्ता और बैकअप के लिए सबसे विश्वसनीय भंडारण के रूप में बेचा जाता है) आपके डेटा के ")।

आप इसे गलत कर रहे हैं

उदाहरण के लिए, उदाहरण के लिए, मुझे ऐसे मामलों का पता है, जहाँ बैकअप और लॉग सैकड़ों टेराबाइट्स में संग्रहीत हैं, जो ब्रांडेड विक्रेताओं की अलमारियों पर व्यावसायिक अनुप्रयोग डेटा के ऑनलाइन स्टोरेज के लिए डिज़ाइन किए गए हैं, या इसके विपरीत - आकार में कुछ पेटीएम के स्व-निर्मित JBOD पर, जिनमें से आधी पूर्ण दूसरी प्रति है “के लिए विश्वसनीयता। " नतीजतन, एक विरोधाभास: प्रति माह स्टोरेज डेटा (10-15 सेंट प्रति गीगाबाइट के स्तर पर) की लागत अमेज़न क्लाउड में भंडारण की लागत से कई गुना अधिक है, इस डेटा को संसाधित करने के लिए लोहे की क्षमताओं का उपयोग नहीं किया जाता है, और बैकअप और दीर्घकालिक भंडारण के लिए आवश्यक विश्वसनीयता इसके विपरीत है। प्रदान नहीं किया गया। (विश्वसनीयता के बारे में हम थोड़ा कम विश्लेषण करेंगे)। जेबीओडी के मामले में, इसके समर्थन और विस्तार की लागत भी बढ़ जाती है। लेकिन जैसा कि ऊपर उल्लेख किया गया है, कंपनियों के पास यह समस्या लंबे समय तक थी, अग्रभूमि में नहीं थी।

सही दिशा में विकास

आश्चर्य की बात नहीं, समस्या को नोटिस करने वाले पहले डेवलपर्स और इंजीनियर थे जो सीधे बड़े डेटा सरणियों से जुड़े हुए हैं - जैसे कि Google, फेसबुक पर और साथ ही प्रसिद्ध हैड्रॉन कोलाइडर जैसे वैज्ञानिक प्रयोगों में। और वे इसे उनके लिए उपलब्ध सॉफ़्टवेयर द्वारा हल करना शुरू कर देते हैं, और फिर प्रकाशनों और सम्मेलनों में अपनी सर्वोत्तम प्रथाओं को साझा करते हैं। शायद यह आंशिक रूप से सॉफ्टवेयर डिफाइंड में स्टोरेज सेगमेंट है, जो बड़ी संख्या में ओपन-सोर्स प्रोजेक्ट्स से भरा हुआ है, साथ ही स्टार्टअप्स जो एक विशेष प्रकार की समस्या के लिए अत्यधिक विशिष्ट समाधान पेश करना शुरू करते हैं, लेकिन फिर से बैकअप और दीर्घकालिक अभिलेखागार को दरकिनार करते हैं।

भंडारण की विश्वसनीयता लेख के शीर्षक में शामिल है, और अब हम आगे का विश्लेषण करेंगे कि साधारण भंडारण प्रणालियों पर बड़ी मात्रा में डेटा संग्रहीत करना न केवल डेटा बढ़ने के कारण कठिन हो जाता है, बल्कि खतरनाक भी है - जो बैकअप या लॉग के लिए विशेष रूप से महत्वपूर्ण है (जो संयोगवश, वीडियो निगरानी अभिलेखागार शामिल है) , जो शायद ही कभी काम में आ सकता है, लेकिन एक अत्यंत महत्वपूर्ण अवसर पर - उदाहरण के लिए, एक जांच का संचालन करने के लिए। तथ्य यह है कि पारंपरिक भंडारण प्रणालियों में, अधिक डेटा बन जाता है, हार्डवेयर की विफलता के कारण भंडारण लागत और डेटा हानि के जोखिम अधिक होते हैं।

गणना और मनोरंजक आँकड़े

यह पाया गया कि औसतन हार्ड ड्राइव 5-8% प्रति वर्ष ( Google डेटा ) की संभावना के साथ विफल हो जाते हैं। पेटाबाइट्स की क्षमता के साथ भंडारण के लिए, इसका अर्थ है प्रति माह कई डिस्क की विफलता, और 10 पेटाबाइट के भंडारण आकार के साथ, डिस्क हर दिन विफल हो सकती है।

_{अंजीर।} _{कैसे हार्ड ड्राइव विफल।} _{(गोलमाल डेटा)}

उदाहरण: RAID 5 का उपयोग करते हुए 10 ^-15 प्रति बिट की रीड एरर की संभावना का मतलब है कि हर 26 वें रिकवरी या हर कुछ महीनों के साथ वास्तविक डेटा का संभावित नुकसान। उदाहरण के लिए, यदि सिस्टम में 10 हजार डिस्क हैं और त्रुटियों के बीच का औसत समय एक डिस्क के लिए 600 हजार घंटे है, तो डिस्क रिकवरी हर कुछ दिनों में करनी होगी। (एक Oracle लेख के डेटा पर आधारित)

यह ध्यान दिया जाना चाहिए कि RAID-आधारित सिस्टम सीमाओं के साथ विफल ड्राइव को पुनर्प्राप्त करता है। और रिकवरी का समय डिस्क के आकार पर निर्भर करता है। डिस्क जितनी बड़ी होगी, डेटा रिकवरी में बार-बार असफल होने की संभावना को बढ़ाते हुए, यह उबर जाएगा। इस प्रकार, डिस्क के आकार की वृद्धि और भंडारण स्थान की मात्रा के साथ, विश्वसनीयता घट जाती है। इसके अलावा, ऐसी त्रुटियां हैं जो RAID स्तर पर पता नहीं लगाई जाती हैं। उन लोगों के लिए जो अधिक विवरण चाहते हैं - RAID समस्याओं का एक उत्कृष्ट अवलोकन यहां हैबे पर प्रकाशित किया गया है ।

इसमें जोड़ें कि, एक नेटएप अध्ययन के अनुसार, औसतन 90 डिस्क्स में से एक में चेकसम से जुड़ी अव्यक्त क्षति, ब्लॉक राइटिंग एरर या गलत पैरिटी बिट्स हैं जो पारंपरिक स्टोरेज सिस्टम में नहीं पाए जाते हैं। जैसा कि एक अन्य अध्ययन से पता चलता है, पारंपरिक फ़ाइल सिस्टम ऐसी त्रुटियों का पता लगाने में सक्षम नहीं हैं। इस प्रकार की त्रुटियों में भी सबसे आम की संभावना कम है। लेकिन जैसे-जैसे डेटा ऐरे बढ़ता है, नुकसान की संभावना भी बढ़ जाती है। SHD विश्वसनीय भंडारण प्रदान करना बंद कर देता है।

विश्वसनीयता हार्डवेयर जो डेटा की सीमित मात्रा को संभाल सकता है वह सैकड़ों टेराबाइट्स और पेटाबाइट्स को मज़बूती से संग्रहीत करने के लिए पर्याप्त नहीं है।

सॉफ्टवेयर परिभाषित भंडारण

इन पूर्वापेक्षाओं और डेटा की बढ़ती मात्रा के साथ काम करने के संचित अनुभव के आधार पर, सॉफ्टवेयर परिभाषित संग्रहण की अवधारणा विकसित होनी शुरू हुई। इस क्षेत्र में सामने आए पहले घटनाक्रमों ने किसी एक समस्या को प्राथमिकता नहीं दी, जैसे कि विश्वसनीयता। उदाहरण के लिए, अपने स्वयं के प्रोजेक्ट्स की जरूरतों से प्रेरित, Google डेवलपर्स, ने एक साथ कई समस्याओं को हल करने की कोशिश की: स्केलेबिलिटी, एक्सेसिबिलिटी, प्रदर्शन और, सहित, विश्वसनीयता सुनिश्चित करना, जब बड़ी मात्रा में डेटा स्टोर करना, सस्ती ठेठ (कमोडिटी) घटकों का उपयोग करना, जैसे, उदाहरण के लिए, डेस्कटॉप। हार्ड ड्राइव और गैर-ब्रांड चेसिस, जो अक्सर महंगे ब्रांडों की तुलना में विफल होते हैं।

इस कारण से, Googler फ़ाइल सिस्टम (GFS) को कुछ तरीकों से समाधान के वर्ग के पूर्वज पर विचार किया जा सकता है, जिस पर नीचे चर्चा की जाएगी। अन्य विकास दल, जैसे कि ओपन सोर्स प्रोजेक्ट्स ग्लस्टर (बाद में रेडहैट का हिस्सा) और सीईपीएच (अब इंटक द्वारा समर्थित) मुख्य रूप से डेटा एक्सेस करते समय उच्च प्रदर्शन प्राप्त करने पर ध्यान केंद्रित करते हैं। यह सूची HDFS (Hadoop filesystem) के बिना पूरी नहीं होगी, जो Google के विकास के आधार पर दिखाई देती है और यह उच्च प्रदर्शन डेटा प्रोसेसिंग पर केंद्रित है। सूची आगे बढ़ती है, लेकिन मौजूदा तकनीकों की गहन समीक्षा इस लेख के दायरे से परे है। मैं केवल इस बात पर ध्यान देता हूं कि इसके शुद्ध रूप में दीर्घकालिक भंडारण के अनुकूलन की समस्या को प्राथमिकता में नहीं रखा गया था, बल्कि इसे हल किया गया था, क्योंकि यह संपूर्ण रूप से समाधान की लागत के अनुकूलन की प्रक्रिया में था।

यह स्पष्ट है कि खुले स्रोत के आधार पर एक वाणिज्यिक समाधान बनाना एक कठिन और जोखिम भरा प्रयोग है और केवल एक बड़ी कंपनी या सिस्टम इंटीग्रेटर ही ऐसा कर सकता है, जिसके पास ओपनसोर्स कोड के साथ काम करने के लिए पर्याप्त विशेषज्ञता और संसाधन हैं, जो स्थापित करना, एकीकृत करना और समर्थन करना और पर्याप्त वाणिज्यिक है। इसके लिए प्रेरणा। लेकिन जैसा कि ऊपर उल्लेख किया गया है, वाणिज्यिक विक्रेताओं के लिए, मुख्य प्रेरणा ऐसे उच्च-बजट क्षेत्रों के उद्देश्य से है जैसे कि वर्चुअलाइजेशन या समानांतर डेटा प्रोसेसिंग के लिए उच्च गति भंडारण प्रणाली।

तैयार समाधान

सस्ती और विश्वसनीय भंडारण की समस्या को हल करने के सबसे करीब वे स्टार्टअप थे जो क्लाउड बैकअप प्रदान करने पर ध्यान केंद्रित करते थे, लेकिन उनमें से कई पहले ही अपनी दूरी खो चुके थे, जबकि अन्य बड़ी कंपनियों द्वारा अवशोषित कर लिए गए थे और प्रौद्योगिकी के विकास में निवेश करना बंद कर दिया था। BackBlaze और Carbonite जैसे विक्रेताओं, जिन्होंने मानक घटकों के आधार पर अपने स्वयं के डेटा केंद्रों में क्लाउड स्टोरेज को तैनात करने के लिए शर्त लगाई थी और अपनी क्लाउड सेवाओं के लिए बाजार में पैर जमाने में सक्षम थे, सबसे अच्छे प्रगतिकर्ता थे। लेकिन वे, अपने मुख्य बाजार में अत्यधिक उच्च प्रतिस्पर्धा को देखते हुए, सॉफ्टवेयर परिभाषित भंडारण वर्ग के स्वतंत्र समाधान के रूप में भंडारण प्रौद्योगिकी को सक्रिय रूप से बढ़ावा नहीं देते हैं। सबसे पहले, प्रतिस्पर्धी बनाने के लिए नहीं, और दूसरी बात, अपने संसाधनों को व्यवसाय के पूरी तरह से अलग-अलग क्षेत्रों में स्प्रे करने के लिए नहीं।

नतीजतन, भंडारण प्रशासक जो बैकअप, लॉग, वीडियो निगरानी प्रणाली, टेलीविजन कार्यक्रमों, आवाज रिकॉर्डिंग के संग्रह के लिए जिम्मेदार हैं, उनके पास एक विकल्प है: एक तरफ, सुविधाजनक लेकिन महंगे समाधान हैं जो एक पर्याप्त बजट होने पर वर्तमान जरूरतों को आसानी से कवर कर सकते हैं। डेटा के 100-150TB भंडारण में। और यह विश्वसनीय और सुरक्षित होगा - जैसा कि वे उद्योग में कहते हैं, किसी को शांत विक्रेता से लोहा खरीदने के लिए निकाल नहीं दिया गया है। लेकिन जैसे ही भंडारण क्षमता 150-200 टीबी डेटा की सीमा से अधिक हो जाती है, आगे विस्तार के साथ समस्याएं दिखाई देती हैं - सभी हार्डवेयर को एक एकल फ़ाइल सिस्टम में संयोजित करने के लिए, अंतरिक्ष को स्वतंत्र रूप से पुनर्वितरित करना, हार्ड ड्राइव को बड़ी ड्राइव में अपग्रेड करना, अतिरिक्त माइग्रेशन लागत महंगा है सामान और "भंडारण के वर्चुअलाइजेशन" के लिए विशेष सॉफ्टवेयर। नतीजतन, स्वामित्व की लागत के संदर्भ में, समय के साथ ऐसी प्रणाली "ठंडे डेटा" के लिए इष्टतम से बहुत दूर हो जाती है। एक अन्य विकल्प लिनक्स और जेबीओडी के आधार पर भंडारण प्रणाली को खुद इकट्ठा करना है। शायद यह एक विशेष कंपनी जैसे कि एक होस्टर या टेलीकॉम प्रदाता, जहां अनुभवी और योग्य विशेषज्ञ हैं, जो अपने स्वयं के समाधान के प्रदर्शन और विश्वसनीयता की जिम्मेदारी लेंगे। मध्यम या छोटे आकार की एक साधारण कंपनी, जिसका मुख्य व्यवसाय डेटा भंडारण से जुड़ा नहीं है, सबसे अधिक संभावना महंगी हार्डवेयर और योग्य विशेषज्ञों के लिए बजट नहीं है। ऐसी कंपनियों के लिए, Acronis खुद के विकास - Acronis Storage - एक सॉफ्टवेयर समाधान है जो आपको सस्ती मानक चेसिस और डिस्क पर अत्यधिक विश्वसनीय और आसानी से विस्तार योग्य भंडारण प्रणालियों को तैनात करने की अनुमति देता है जो एक दूसरे के साथ मनमाने ढंग से संयुक्त हो सकते हैं, एक "हॉट सिस्टम" द्वारा एक को बदल सकते हैं, एक दिलचस्प विकल्प बन सकता है। कुछ टेराबाइट्स से कई दसियों या सैकड़ों टेराबाइट्स के लिए मनमाने ढंग से ब्लॉक के साथ जगह बढ़ाना, अनिवार्य रूप से केवल एक पीसी और एक वेब-आधारित इंटरफ़ेस बनाने के कौशल का उपयोग करना जो कॉन्फ़िगर करने के लिए एक आम आदमी के लिए सहज है। संपूर्ण भंडारण प्रणाली और उसके व्यक्तिगत नोड्स और डिस्क की निगरानी। यह विकास Acronis के आंतरिक क्लाउड बैकअप बैकअप स्टार्टअप का परिणाम था, जो अब तीन डेटा केंद्रों में कई पेटाबाइट्स तक विस्तारित हो गया है।

संक्षेप में कहना

सॉफ्टवेयर पर आधारित समाधानों का उल्लेख किए बिना बड़ी मात्रा में डेटा संग्रहीत करने के लिए दृष्टिकोण की समीक्षा पूरी नहीं होगी, लेकिन हार्डवेयर और सॉफ्टवेयर सिस्टम (उपकरणों) के रूप में बाजार में पहुंचाई जाती है। कुछ मामलों में, यह एक समाधान को जल्दी से तैनात करना संभव बनाता है और सीमित संसाधनों के साथ बहुत बड़ी कंपनी के लिए उपयुक्त नहीं हो सकता है। लेकिन पूर्वनिर्धारित हार्डवेयर कॉन्फ़िगरेशन का उपयोग सिस्टम को ठीक करने की क्षमता को सीमित करता है और स्वाभाविक रूप से, समाधान की कीमत के लिए शुद्ध सॉफ़्टवेयर की तुलना में एक उच्च सीमा निर्धारित करता है, जिसमें पहले से ही हार्डवेयर शामिल है। और, ज़ाहिर है, यह दृष्टिकोण एक एकल सर्वर को अपग्रेड करने के संदर्भ में कई विशिष्ट हार्डवेयर भंडारण प्रणालियों को विरासत में मिला है (अधिक क्षमता वाले और तेजी से लोगों के साथ डिस्क की जगह, तेजी से एक के साथ नेटवर्क की जगह)।

निष्कर्ष में, हम एक बार फिर भंडारण उद्योग के विश्लेषकों के डेटा की ओर मुड़ते हैं और कई निष्कर्षों को ठीक करते हैं। 2012 के अंत में फॉरेस्टर फॉरेसाइट हार्डवेयर सर्वे के अध्ययन के अनुसार, 20% कंपनियों के पास पहले से ही प्रति वर्ष 100TB तक बैकअप वॉल्यूम था, और बैकअप के लिए भंडारण के विस्तार की जटिलता 42% उत्तरदाताओं के लिए एक समस्या बन गई। कंपनी की कंपनी अलग है, लेकिन ये आंकड़े विशेषज्ञों को भंडारण क्षमता की दीर्घकालिक योजना के बारे में सोचने के लिए प्रेरित करते हैं, जो कि भविष्य में कई वर्षों तक उनके संगठन की आवश्यकता हो सकती है। इस धारणा के तहत कि सभी कंपनियां बैकअप संग्रहण के मामले में लगभग समान हैं, उनमें से लगभग आधे में आने वाले वर्षों में बैकअप के लिए भंडारण प्रणालियों के अनुकूलन की समस्या होगी, और संभवतः ऐसे अन्य ठंडे डेटा। पारंपरिक RAID-आधारित भंडारण प्रणालियों के डेटा से पता चलता है कि विश्वसनीयता बढ़ाने के लिए और "ठंडे डेटा" को संग्रहीत करने की लागत को अनुकूलित करने के लिए, यह भंडारण चयन प्रक्रिया में सॉफ्टवेयर परिभाषित स्टोरेज क्लास के वैकल्पिक नए समाधानों के लायक है, जो स्केलेबिलिटी कार्य के साथ बेहतर सामना करते हैं और नियामकों को अधिक लचीलापन देते हैं और भंडारण और सेवा का विस्तार करते समय चुनाव की स्वतंत्रता।

मध्यम बजट के भीतर बड़ी मात्रा में डेटा को सुरक्षित रूप से कैसे संग्रहीत किया जाए