HDInsight का परिचय

Windows Azure के लिए HDIightight Services एक ऐसी सेवा है जो आपको बिग डेटा में प्रबंध, विश्लेषण और रिपोर्टिंग के लिए एक सॉफ्टवेयर वातावरण प्रदान करने के लिए क्लाउड में Apache Hadoop क्लस्टर के साथ काम करने की अनुमति देती है।

मैं Hadoop की क्षमताओं पर ध्यान नहीं दूंगा। इसे पहली बार 2005 में अपाचे सॉफ्टवेयर फाउंडेशन परियोजना के हिस्से के रूप में पेश किया गया था और यह महत्वपूर्ण मात्रा में डेटा के प्रसंस्करण के लिए एक सॉफ्टवेयर प्लेटफॉर्म है। मान लीजिए कि पेटाबाइट आकार उसके लिए कोई बाधा नहीं है। Hadoop प्लेटफ़ॉर्म Hadoop क्लस्टर पर लागू HFS डिस्ट्रीब्यूटेड फ़ाइल सिस्टम (HDFS) पर आधारित है। क्लस्टर में फ़ाइलें (DataNode) के टुकड़े संग्रहीत करने वाले नोड्स शामिल हैं। सैद्धांतिक रूप से, कम-लागत कंप्यूटिंग प्लेटफार्मों (कमोडिटी हार्डवेयर) के आधार पर इस तरह के सैकड़ों और हजारों नोड्स हो सकते हैं। उच्च विश्वसनीयता सुनिश्चित करने के लिए, नोड्स के बीच टुकड़ों की प्रतियां बनाकर अतिरेक को बनाए रखा जाता है। NameNode को इस बात का ज्ञान है कि कौन सा डेटा नोड किस प्रतिकृति पर है। क्लाइंट की ओर, यह एक नियमित ट्री-आधारित फ़ाइल सिस्टम की तरह दिखता है। NameNode स्वयं मूल I / O नहीं करता है। यह केवल ग्राहक को मेटाडेटा के साथ टुकड़े के प्राथमिक प्रतिकृति के स्थान के बारे में प्रदान करता है। टुकड़ा प्रतिकृति स्वचालित है। एक खंड की प्राथमिक प्रतिकृति की विफलता के मामले में, इसके माध्यमिक प्रतिकृति में से एक को प्राथमिक के रूप में सौंपा गया है और एक अन्य प्रतिलिपि भी स्वचालित रूप से अतिरिक्त नोड पर बनाई गई है। टुकड़ों के समानांतर प्रसंस्करण के माध्यम से महत्वपूर्ण मात्रा में डेटा के लिए स्केलेबिलिटी हासिल की जाती है। ऐतिहासिक रूप से, Google लैब्स के विकास में, Hadoop प्रोजेक्ट ने इंटरनेट सामग्री की खोज और वर्गीकरण पर ध्यान केंद्रित किया है। उदाहरण के लिए, मैप फ़ंक्शन इनपुट के रूप में एक डेटा सेट प्राप्त करता है और इसे कुंजी / मूल्य जोड़े की सूची में परिवर्तित करता है। Reduce फ़ंक्शन सूची को कुंजी द्वारा समूहीकृत करके उलटा ऑपरेशन करता है। समानांतर करने के लिए, ऐसे कार्यों के कई उदाहरण बनाए जा सकते हैं, प्रत्येक अपने स्वयं के टुकड़े को संसाधित करता है। नोड्स जिन पर फ़ाइलों के इनपुट टुकड़े संग्रहीत होते हैं और उन्हें लॉन्च करने वाली MapReduce इंस्टेंस को टास्कट्रैकर कहा जाता है, और इंस्टेंस को समन्वयित करने वाले नोड को जॉबट्रैकर कहा जाता है। अंशों की संख्या अंशों की संख्या और स्थान से निर्धारित होती है। खोज इंजन के अलावा, इस टेम्पलेट में कई अन्य प्रकार के डेटा प्रोसेसिंग कार्य शामिल हैं। एचडीएफएस और मैपआरड्यूस के शीर्ष पर निर्मित सुअर, हाइव, महावत, पेगासस और अन्य परियोजनाएं हैं जो उच्च स्तर की अमूर्तता प्रदान करती हैं और डेटा प्रवाह नियंत्रण समस्याओं, क्वेरी, विश्लेषणात्मक समस्याओं, साथ ही साथ पैटर्न (डेटा माइनिंग), स्टोरेज के विशिष्ट खोजने के कार्यों को हल करने की अनुमति देती हैं। (डेटा वेयरहाउस), जो परंपरागत रूप से डेटाबेस प्रबंधन सर्वर, एक रिलेशनल मॉडल और SQL क्वेरी भाषा की एक विशेष बोली पर निर्मित होते हैं। ODBC ड्राइवरों का उपयोग करके सहभागिता पारंपरिक रूप से कम नहीं है।
अंतिम गिरावट, सिएटल में पास समिट 2011 ने माइक्रोसॉफ्ट एसक्यूएल सर्वर के लिए हडोप कनेक्टर की रिहाई की घोषणा की, जो दो प्रणालियों के बीच डेटा के आदान-प्रदान की सुविधा देता है। इसके अलावा, विंडोज के लिए विंडोज एज़्योर HDInsight Service और Microsoft HDInsight सर्वर का प्रारंभिक मूल्यांकन संस्करण, Apache Hadoop खुले मानकों के साथ 100% संगत है , वर्तमान में HortonWorks के साथ साझेदारी में प्रदान किया जा रहा है। यहां विंडोज के लिए HDInsight सर्वर डाउनलोड करें । क्लाउड में HDIightight Service को आज़माने के लिए, आपको यहां परीक्षण के लिए पंजीकरण करना होगा।
शर्त के रूप में, आपके पास Microsoft क्लाउड खाता होना चाहिए। MSDN, BizSpark, DreamSpark कार्यक्रमों के भीतर खाते काम करते हैं। प्रारंभिक संस्करण के हिस्से के रूप में, 1.5 टीबी के कुल डिस्क स्थान के साथ 3 नोड्स का एक हडोप क्लस्टर बनाना संभव है। क्लस्टर निर्माण के क्षण से 5 दिन जीवित रहेगा। उसके बाद, सभी कॉन्फ़िगरेशन और सामग्री खो जाएगी, आपको इसे फिर से बनाना होगा। प्रारंभिक डेटा से, आपको DNS नाम (यह, निश्चित रूप से, अद्वितीय होना चाहिए) और प्रशासनिक उपयोगकर्ता नाम / पासवर्ड निर्दिष्ट करना होगा। हमें मेटाडेटा को स्टोर करने के लिए पहले विंडोज अज़ुरे SQL डेटाबेस का उपयोग करने की आवश्यकता नहीं होगी, लेकिन सिर्फ इस मामले में, ध्यान दें कि ऐसी संभावना है और एक डेटाबेस (यदि आप इसका उपयोग करना चाहते हैं तो) पहले से बनाया जाना चाहिए। स्क्रीन के निचले दाएं भाग में अनुरोध क्लस्टर बटन पर क्लिक करें:

छवि
चित्र 1

कुछ मिनटों के बाद, क्लस्टर स्थिति = रनिंग में परिवर्तन पर निर्भर करता है, जिसके बाद इसका उपयोग किया जा सकता है।

छवि
Fig.2

Go to Cluster के लिंक पर क्लिक करें। वेब इंटरफ़ेस से, आप जावास्क्रिप्ट और हाइव कमांड को निष्पादित करने के लिए इंटरैक्टिव कंसोल पर जा सकते हैं, एक रिमोट एक्सेस सत्र, ओडीबीसी इंटरैक्शन के लिए पोर्ट कॉन्फ़िगर कर सकते हैं, एक कार्य बना सकते हैं, कार्य निष्पादन के इतिहास को देख सकते हैं, और खुद को Hadoop का उपयोग करने के विशिष्ट उदाहरणों से परिचित कर सकते हैं। डाउनलोड बटन का उपयोग करके, वर्तमान में एक स्थानीय x86 या x64 मशीन पर HiveODBC ड्राइवरों को स्थापित करना संभव है। प्रबंधित क्लस्टर बटन आपको उपयोग किए गए डिस्क स्थान के आकार को नियंत्रित करने की अनुमति देता है, साथ ही साथ विंडोज एज़्योर बीएलओबी सेवा में फ़ोल्डर्स निर्दिष्ट करता है, जिसे एक कहानी (एज़्योर स्टोरेज वॉल्ट) के रूप में माना जा सकता है, जो कि नेटवा प्रक्रिया के लिए क्लस्टर के डिस्क स्थान के लिए वैकल्पिक है। उदाहरण के लिए, MapReduce के लिए इनपुट और आउटपुट स्थान के रूप में। यदि किसी चीज़ को खराब कर दिया जाता है, तो www.hadooponazure.com पर जाकर और रिलीज़ क्लस्टर बटन पर क्लिक करके क्लस्टर को फिर से बनाया जा सकता है।

छवि
3 चित्र

पोर्टल स्क्रीन में संबंधित टाइल पर क्लिक करके रिमोट डेस्कटॉप के माध्यम से एक कनेक्शन स्थापित करें। प्राधिकरण के लिए, छवि 1 में निर्दिष्ट खाते का उपयोग किया जाता है।

छवि
चित्र 4

आप देख सकते हैं कि Windows Server 2008R2 एंटरप्राइज़ SP1 का 64-बिट संस्करण आधार ऑपरेटिंग सिस्टम के रूप में उपयोग किया जाता है। यह विभाजन D पर स्थापित है:। Hadoop कमांड विंडो खोलने के लिए, स्टार्ट -> रन -> चलाएं

D:\Windows\system32\cmd.exe /k pushd "c:\apps\dist\hadoop-1.1.0-SNAPSHOT" && "c:\apps\dist\hadoop-1.1.0-SNAPSHOT\bin\hadoop.cmd"

एचडीएफएस में भविष्य के प्रयोगों के लिए एक निर्देशिका बनाएं और एक उपनिर्देशिका जहां इनपुट डेटा रखा जाएगा:

hadoop fs -mkdir Sample1/input

जावा FsShell ऑनलाइन सहायता प्राप्त करने के लिए, हैडअप fs -help टाइप करें।
नमूना उपनिर्देशिका को इनपुट उपनिर्देशिका में स्थानांतरित करें, जिसे Hadoop के काम को और स्पष्ट करने की आवश्यकता होगी। यह फ़ाइल एक खराब संरचित प्रारूप का सार लॉग है जिसमें संकेत TRACE, DEBUG, INFO, FATT, आदि के साथ लाइनें हैं। इसे HortonWorks के उदाहरणों से getstarted.hadooponazure.com/hw/sample.log पर लिया जा सकता है। यह टेराबाइट लॉग नहीं है, इसमें ~ 100 KB का मामूली आकार है, लेकिन चित्रण के लिए, MapReduce करेंगे। सरलता के लिए, HDInsight क्लस्टर पर इसे Windows निर्देशिका में शुरू में डाउनलोड करें, d: \ Temp कहते हैं। इंटरनेट विंडोज मशीन पर उपलब्ध है जिसके साथ रिमोट कनेक्शन स्थापित है। इंटरनेट एक्सप्लोरर को अपडेट करने के लिए इसे तुरंत संकेत दिया जाएगा, लेकिन हमारे भविष्य के कार्यों के लिए यह आवश्यक नहीं है। एचडीएफएस के लिए नमूना डाउनलोड करें। स्थानीय फ़ाइल सिस्टम से कॉपी करने के लिए, -पुट स्विच का उपयोग करें:

hadoop fs -put d:\Temp\Sample.log Sample1/input/

सुनिश्चित करें कि यह जूते:

hadoop fs -ls Sample1/input/

छवि
चित्रा 5

अगला, MapReduce की मूल विशेषताओं का उदाहरण के रूप में Sample.log विश्लेषण का उपयोग करके जांच की जाएगी।

Source: https://habr.com/ru/post/In165185/


All Articles