
जब कोई कंप्यूटर कुख्यात बीएसओडी को क्रैश या जारी करता है, तो सॉफ्टवेयर को आमतौर पर दोषी ठहराया जाता है (
साथ ही साथ: टेढ़े ड्राइवरों और कम-सीखा प्रोग्रामर, माइक्रोसॉफ्ट और व्यक्तिगत रूप से बिल गेट्स, आदि के हाथ )। लेकिन पिछले कुछ वर्षों में, वैज्ञानिकों ने हार्डवेयर विफलताओं पर करीब से नज़र डालना शुरू कर दिया है, और उन्होंने एक और गंभीर प्रकार की समस्या की खोज की है, जो कि कई लोगों की तुलना में खुद को अधिक बार प्रकट करता है। उनसे चर्चा की जाएगी।
चिप निर्माता यह सुनिश्चित करने के लिए कड़ी मेहनत कर रहे हैं कि उनके उत्पादों का कठोरता से परीक्षण किया जाए और ठीक से काम किया जाए। लेकिन वे यह कहना पसंद नहीं करते हैं कि लंबे समय तक माइक्रोकिरसीट्स का सही संचालन सुनिश्चित करना आसान नहीं है। 70 के दशक के अंत के बाद से, यह ज्ञात है कि छिपी हुई हार्डवेयर समस्याएं माइक्रोक्रिस्किट्स के अंदर बिट्स के अप्रत्याशित स्विचिंग से एक राज्य से दूसरे में जा सकती हैं। तथ्य यह है कि ट्रांजिस्टर साल-दर-साल कम हो जाते हैं केवल संभावना बढ़ जाती है कि एक गुजर कण उनके राज्य को स्विच करेगा। इस तरह की विफलताओं को "सॉफ्ट एरर्स" कहा जाता है और उनका महत्व केवल तभी बढ़ेगा जब तकनीकी प्रक्रिया घट जाएगी, क्योंकि एक भी कण बहुत अधिक नुकसान कर सकता है।
लेकिन "सॉफ्ट एरर" समस्या का एक हिस्सा है। पिछले पांच वर्षों में, शोधकर्ताओं ने कई बहुत बड़े डेटा केंद्रों का अवलोकन किया है, और उन्होंने पाया है कि कई मामलों में, विफलताओं का कारण बस दोषपूर्ण मेमोरी चिप्स था। समय के साथ तापमान जोखिम या विनिर्माण दोष घटक खराबी का कारण बन सकता है (प्रवाहकीय कनेक्शन का विनाश या नए लोगों की उपस्थिति)। ये "कठिन त्रुटियां" हैं
नरम त्रुटियों
"सॉफ्ट एरर" एक महत्वपूर्ण कारक: बिजली की खपत के कारण अगली पीढ़ी के चिप्स के डेवलपर्स के लिए बेहद चिंताजनक है। जब अगली पीढ़ी के सुपर कंप्यूटर दिखाई देंगे, तो उनमें और भी अधिक माइक्रोप्रोसेसर और मेमोरी चिप्स होंगे। और सभी बड़ी संख्या में ट्रांजिस्टर को अनियंत्रित बिट स्विचिंग से बचने के लिए अधिक से अधिक ऊर्जा की आवश्यकता होगी।
समस्या स्वयं भौतिकी की मूल बातों से संबंधित है। जैसा कि निर्माता सर्किट के अंदर कनेक्शन को अधिक से अधिक पतला बनाते हैं, इलेक्ट्रॉनों को "छेद से पानी की बूंदों" की तरह "दूर भागना" होता है। बॉन्ड जितना महीन होता है, उतनी ही ऊर्जा उचित संचालन को बनाए रखने के लिए आवश्यक होती है।
समस्या इतनी जटिल है कि इंटेल इसे हल करने के लिए अमेरिकी ऊर्जा विभाग और कई अन्य सरकारी एजेंसियों के साथ काम कर रहा है। अगली पीढ़ी की 5nm प्रक्रिया प्रौद्योगिकी का उपयोग करते हुए, दशक के अंत तक इंटेल मौजूदा लोगों की तुलना में 1000 गुना अधिक शक्तिशाली सुपर कंप्यूटर बनाएगा। लेकिन ऐसा लगता है कि इस तरह के सुपर कंप्यूटर न केवल बहुत तेज होंगे, बल्कि वास्तविक बिजली खाने वाले भी बन जाएंगे।
"हमारे पास ऊर्जा की खपत की चिंता किए बिना इसे प्राप्त करने का एक तरीका है" (उत्पादकता में 1000 गुना वृद्धि हासिल करने के लिए)। "लेकिन अगर आप चाहते हैं कि हम ऊर्जा की खपत की समस्या को हल करें, तो यह हमारी योजनाओं से परे है।"
ग्राफ पर - सबसे वर्तमान डेटा नहीं है, और एक अलग प्रकार की मेमोरी से संबंधित है। विशेष रूप से DRAM डेटा के लिए नहीं मिला। लेकिन सामान्य प्रवृत्ति दिखाई देती है: वोल्टेज स्तर बढ़ने से विफलताओं की संख्या कम हो जाती है।

निर्माता इस बारे में बात करना पसंद नहीं करते हैं कि उनके उत्पाद कितनी बार विफल होते हैं - ऐसी जानकारी को गुप्त माना जाता है और इस विषय पर शोध करना आसान नहीं है। अक्सर कंपनियां अपने ग्राहकों को हार्डवेयर विफलताओं की आवृत्ति के बारे में बात करने से रोकती हैं।
“यह सक्रिय अनुसंधान का एक क्षेत्र है। हम इसके बारे में खुलकर बात नहीं करते, क्योंकि यह एक बहुत ही नाजुक विषय है। ”
नरम त्रुटियाँ?
"सॉफ्ट एरर" समस्याओं में से एक है, लेकिन ऐसी अन्य समस्याएं हैं जिनके बारे में हार्डवेयर निर्माता कम ही बात करते हैं। टोरंटो विश्वविद्यालय के शोध के अनुसार, जब कंप्यूटर की मेमोरी क्रैश हो जाती है, तो यह कॉस्मिक रेडिएशन के कारण होने वाली "सॉफ्ट एरर" के बजाय उम्र या मैन्युफैक्चरिंग एरर्स (ये "हार्ड एरर्स") के कारण होता है।
2007 में, शोधकर्ताओं के एक समूह को Google डेटा केंद्रों तक पहुंच मिली, जहां उन्होंने इस बारे में जानकारी एकत्र की कि खोज के विशालकाय लिनक्स सिस्टम कितनी बार दुर्घटनाग्रस्त हुए। इसने उम्मीद से दर्जनों गुना ज्यादा विफलताएं दर्ज कीं। जबकि पिछले अध्ययनों ने प्रति अरब घंटे काम के दौरान 200 और 5,000 विफलताओं के बीच संख्याओं की सूचना दी थी, फिर Google अनुसंधान ने 25,000 और 75,000 के बीच संख्याएं दिखाईं।
लेकिन इससे भी दिलचस्प बात यह है कि लगभग 8% मेमोरी चिप्स विफलताओं के 90% से अधिक के लिए जिम्मेदार थे।
करीब से पता चला है कि मशीन पार्क के पुराने प्रतिनिधियों पर दुर्घटनाएं होती हैं। लगभग 20 महीनों के ऑपरेशन के बाद, विफलताओं की संख्या तेजी से बढ़ रही है। यह शायद कोई संयोग नहीं है कि आईटी के बुनियादी ढांचे का एक विशिष्ट अद्यतन तीन साल के निशान के क्षेत्र में होता है। और, शायद, इन अध्ययनों के परिणाम इस तथ्य के पक्ष में एक और तर्क साबित होंगे कि योजनाबद्ध उन्नयन का स्थगन जल्द ही बचत से अधिक खर्च करना शुरू कर देगा।
इस प्रकार, पता चला कि समस्याएं "कठिन त्रुटियां" थीं, न कि "नरम त्रुटियां", और सबसे साहसी पूर्वानुमानों के अनुसार उनमें से बहुत कुछ था।
बाद के अध्ययनों ने ब्लू जीन सिस्टम में आईबीएम द्वारा उपयोग किए जाने वाले मेमोरी चिप्स और कनाडाई SciNet सुपर कंप्यूटर के लिए एक समान तस्वीर दिखाई है। सभी प्रणालियों के लिए, मेमोरी विफलताओं की आवृत्ति लगभग समान थी।
एएमडी के शोध से यह भी पता चला है कि DRAM चिप्स के लिए, "हार्ड एरर" "सॉफ्ट एरर" की तुलना में अधिक सामान्य हैं। लेकिन इंटेल की तरह एएमडी ने कभी भी माइक्रोप्रोसेसरों में उपयोग की जाने वाली एसआरएएम मेमोरी की विफलताओं की आवृत्ति के बारे में कोई अध्ययन प्रकाशित नहीं किया है।
विलास श्रीधरन, एएमडी के विश्वसनीयता वास्तुकार और इस विषय पर लेख के लेखकों में से एक ने कहा:
“यह कोई नई समस्या नहीं है। DRAM मॉड्यूल में त्रुटियों को पहली बार 1979 में देखा गया था, लेकिन तब से हमने सीखना जारी रखा है। ”
और दुनिया के सबसे बड़े DRAM निर्माता सैमसंग के अनुसार उनके पास है
"कोई विस्तृत जानकारी नहीं है जो वे इस खाते पर प्रदान कर सकते हैं।"
चिप निर्माताओं को कठिन त्रुटियों पर अधिक ध्यान देना चाहिए। आज, "सॉफ्ट एरर" को सही करने के कई तरीके हैं: त्रुटि सुधार कोड (ईसीसी) से होस्ट सर्वर तक लेड माइंस का उपयोग करने के लिए। लेकिन "कठिन त्रुटियों" का सामना करने के मामले में, सब कुछ बहुत अच्छे से दूर है।
इस मामले में, "कठिन त्रुटियां" ज्यादातर लोगों की तुलना में अधिक त्रुटियों का कारण बन सकती हैं। और अगर हाय-एंड सुपर कंप्यूटर और सर्वर ईसीसी का उपयोग कर सकते हैं, तो पीसी के मामले में ऐसा नहीं है। अधिकांश मोबाइल उपकरणों, साथ ही लैपटॉप और डेस्कटॉप कंप्यूटर में ECC शामिल नहीं है। आंशिक रूप से, क्योंकि विफलताओं के मॉडल के अनुसार, उनमें से अधिकांश "नरम त्रुटियों" के कारण होते हैं। यह मॉडल निर्माताओं के लिए फायदेमंद है। और उपयोगकर्ता "रूबल" मतदान द्वारा योगदान करते हैं। यदि आपने कभी घर (और सिर्फ घर नहीं) कंप्यूटर के लिए मेमोरी मॉड्यूल चुना है, तो क्या आपने ईसीसी की उपस्थिति को एक महत्वपूर्ण विवरण माना है?
इस बीच, ईसीसी की उपस्थिति पहले की तुलना में और भी महत्वपूर्ण है: यह अक्सर एक निश्चित त्रुटि और एक आपदा के बीच अंतर को छुपाता है, जिससे एक मजबूर आउटेज होता है। यह आश्चर्यजनक नहीं है कि डेटा सेंटर और सुपर कंप्यूटर के निर्माता इस पर जोर देते हैं।
वैसे, एसएसडी के लिए एक समान स्थिति देखी जाती है। एक समान कीमत के साथ 240Gb और 256Gb पर मॉडल के बीच चयन करना, सबसे दूसरे का चयन करेगा। इसी समय, तथ्य यह है कि क्षमता समान है, लेकिन त्रुटि सुधार के लिए पहला मॉडल 16 जीबी का होता है, इकाइयां नोटिस करेंगी, और बहुत कम लोगों के लिए यह पहले के पक्ष में पसंद को प्रभावित करेगा। मैं विशिष्ट मॉडल और विक्रेताओं का नाम नहीं दूंगा - यह इतना महत्वपूर्ण नहीं है।
दुर्भाग्य से, आज बीएसओडी को अक्सर होर्डिंग, सूचना स्टैंड, एटीएम, हवाई अड्डों और कई अन्य स्थानों पर देखा जा सकता है। कौन जानता है कि यह स्थिति भविष्य में बेहतर के लिए बदल जाएगी?
और अंत में, विषयगत विध्वंसक :):
