Hadoop / Mapreduce लघु प्रदर्शन परीक्षण

एक बार मैंने खुद को आश्चर्यचकित किया, "कितनी कुशलता से MapReduce काम करता है?"

इस तरह के एक अवसर और इस विन्यास में 4 नोड्स के एक क्लस्टर पर, मैंने परीक्षण करने का फैसला किया:
- 3 नोड्स: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
- 1 नोड: Intel Xeon CPU X5450 @ 3.00GHz। 8 जीबी रैम

ओएसस डेबियन, हडूप 1.2 (ऑफ.साइट से), जावा 7 (ORACLE से)।

स्रोत डेटा:
- CML फ़ाइल: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
- अनपैक किए जाने पर, फ़ाइल में 18GB स्थान होता है।
- 31M विकी पेज।
- Bzip2 इस फाइल को 2GB तक कंप्रेस करता है
- फाइल में 593.045.627 लाइन


एक प्रविष्टि का उदाहरण:
<page> <title>AfghanistanHistory</title> <ns>0</ns> <id>13</id> <redirect title="History of Afghanistan" /> <revision> <id>74466652</id> <parentid>15898948</parentid> <timestamp>2006-09-08T04:15:52Z</timestamp> <contributor> <username>Rory096</username> <id>750223</id> </contributor> <comment>cat rd</comment> <text id="74089594" bytes="57" /> <sha1>d4tdz2eojqzamnuockahzcbrgd1t9oi</sha1> <model>wikitext</model> <format>text/x-wiki</format> </revision> </page> 


एक परीक्षण के रूप में, मैंने एक साधारण समस्या ली जिसे कंसोल में पारंपरिक उपकरण का उपयोग करके या मैपरेडेस का उपयोग करके हल किया जा सकता है। और संक्षेप में कार्य इस रूप में व्यक्त किया गया है:

 time bunzip2 -c /mnt/hadoop/data_hadoop/test.xml.bz2 | grep "<title>" |wc 31127663 84114856 1382659030 real 9m32.953s user 10m16.779s sys 0m12.737s 


इसी तरह की समस्या को 3 मिनट और 40 सेकंड में पूरे हडूप क्लस्टर पर हल किया गया था। (हां, समानांतर अनपैकिंग के साथ, जावा में अनपैकिंग की गई थी, और मूल रूप से नहीं)।

यदि फ़ाइल अनपैकड अवस्था (18GB) में थी, तो प्रसंस्करण 2 मी और 30 के दशक में हडूप क्लस्टर पर समाप्त हो गया। (2min और 12 सेकंड में सबसे तेज)। और इस मामले में, डिस्क 100% पर भरी हुई हैं

खैर, इसके बारे में सोचने के लिए)) फ़ाइल को पहले pbzip2 द्वारा पिन किया गया था ... Intel Xeon CPU W3530 ... 2.80GHz पर

 time pbzip2 -d -c -p8 /mnt/hadoop/data_hadoop/testpbzip.xml.bz2 | grep "<title>" |wc 31127663 84114856 1382659030 real 2m44.507s user 21m28.493s sys 0m19.833s 


मैं कोई निष्कर्ष नहीं निकालने जा रहा हूं ... लेकिन कहीं न कहीं इंटरनेट पर मैंने पाया कि हडूप क्लस्टर खुद को 4 नोड्स से दिखाना शुरू करता है ... उनके पास शायद कारण थे।

Source: https://habr.com/ru/post/In217821/


All Articles