
सभी वेब डेवलपर्स को उपयोगकर्ताओं के लिए व्यक्तिगत रूप से सामग्री का चयन करने के कार्य का सामना करना पड़ता है। डेटा की मात्रा में वृद्धि और इसकी विविधता में वृद्धि के साथ, नमूनाकरण की सटीकता सुनिश्चित करना एक तेजी से महत्वपूर्ण कार्य बनता जा रहा है जिसका उपयोगकर्ताओं की आंखों में परियोजना के आकर्षण पर महत्वपूर्ण प्रभाव पड़ता है। यदि उपरोक्त आपके हितों के दायरे में है, तो शायद यह पोस्ट कुछ नए विचारों में चलेगी।
आईटी उद्योग के विकास के प्रत्येक युग में, ऐसे शब्द थे - शब्द जिन्हें सभी ने सुना था, हर कोई जानता था कि उनका भविष्य था, लेकिन केवल कुछ ही जानते थे कि वास्तव में इस शब्द के पीछे क्या था और इसे
सही तरीके से कैसे उपयोग किया जाए। एक समय में, बिज़ोवर्मी "झरना", और "एक्सएमएल", और "स्क्रैम" और "वेब सेवाएं" थे। आज, बज़बॉर्ड नंबर 1 के शीर्षक के मुख्य दावेदारों में से एक "बड़ा डेटा" है। बड़े डेटा की मदद से, ब्रिटिश वैज्ञानिक एचसीजी परीक्षण के करीब सटीकता के साथ एक सुपरमार्केट से चेक द्वारा गर्भावस्था का निदान करते हैं। बड़े विक्रेता बड़े डेटा का विश्लेषण करने के लिए प्लेटफ़ॉर्म बनाते हैं, जिसकी लागत लाखों डॉलर के लिए शीर्ष पर है, और इसमें कोई संदेह नहीं है कि किसी भी स्वाभिमानी इंटरनेट परियोजना में प्रत्येक पिक्सेल को 2020 तक बाद में बड़े डेटा को ध्यान में रखते हुए बनाया जाएगा।
इसी समय, टिप्पणी के साथ बड़े डेटा विश्लेषण एल्गोरिदम के बारे में एक दुर्लभ लेख "ठीक है, मुझे एक औद्योगिक पैमाने पर काम करने का एक उदाहरण दिखाओ!" इसलिए, हम बुश के चारों ओर नहीं
हराएंगे और एक उदाहरण के साथ शुरू करेंगे:
www.ok.ru/music । Odnoklassniki के संगीत अनुभाग में अधिकांश सामग्री प्रत्येक उपयोगकर्ता के लिए व्यक्तिगत रूप से "बड़े डेटा" के आधार पर चुनी जाती है। क्या यह इसके लायक है? यहाँ कुछ सरल संख्याएँ हैं:
- + 300% नाटकों और सदस्यताएँ
- + 200% गीत अपलोड
- + 1000% संगीत विज्ञापन लक्ष्यीकरण के लिए दर पर क्लिक करें
लेकिन मुख्य बात यह बिल्कुल नहीं है। वास्तविक उपयोगकर्ताओं की जीवंत और निष्पक्ष राय कहीं अधिक मूल्यवान है। एक साल पहले, "विंडो के बाहर" परियोजना के हिस्से के रूप में, जिन लोगों ने दो सप्ताह पहले ऑनलाइन खर्च करने से पहले ओडनोक्लास्निक का इस्तेमाल नहीं किया था, उन्होंने अपने छापों के बारे में विस्तार से बताया। संगीत अनुभाग के बारे में समीक्षाओं में से एक था: “यह किसी तरह अनुमान लगाता है कि मुझे क्या पसंद है। मैं नहीं समझता कि कैसे, लेकिन यह अच्छा है।
वास्तव में, निश्चित रूप से, कोई जादू नहीं है - पूरी बात डेटा में है। बहुत ही डेटा जो हमारे उपयोगकर्ता संगीत सुनने और डाउनलोड करने, संगीत कैटलॉग ब्राउज़ करने से उत्पन्न करते हैं। सभी उपयोगकर्ता क्रियाओं के बारे में जानकारी क्लासिक MS SQL रिलेशनल डेटाबेस में प्रवाहित होती है, जहाँ डेटा का प्राथमिक प्रसंस्करण, फ़िल्टरिंग और एकत्रीकरण होता है (हाँ, अच्छा पुराना SQL भी बड़े डेटा को संसाधित कर सकता है)। SQL में तैयार किया गया डेटा एक छोटे से Hadoop क्लस्टर के लिए अतिरिक्त विश्लेषण के लिए अपलोड किया गया है, जो एक कॉम्पैक्ट लेकिन जानकारीपूर्ण निचोड़ बनाता है जो पहले से ही वास्तविक समय में उपयोग किया जाता है (इसका हिस्सा कैसेंड्रा में आयात किया जाता है, भाग तुरंत मेमोरी में लोड होता है)। अधिक दक्षता के लिए, नवीनतम उपयोगकर्ता क्रियाओं को डेटाबेस (टारनटूल) में जोड़ा जाता है और ऑनलाइन खाते में भी लिया जाता है।

सामग्री का चयन करने के लिए उपयोग किए जाने वाले निचोड़ में विभिन्न प्रकार की वस्तुओं के बीच विभिन्न प्रकार के सहसंबंध शामिल हैं। संगीत पटरियों के लिए, यह एक छोटी समय खिड़की (अस्थायी समानता) के भीतर कितनी बार सुनी जाती है, इसके बारे में जानकारी है। संगीत कलाकारों के लिए, यह इस बारे में जानकारी है कि एक ही उपयोगकर्ता उन्हें कितनी बार पसंद करता है (सहयोगी समानताएं), और उनके निकटतम पड़ोसियों की संगीत सूची कैसे (दूसरी-क्रम सहयोगी समानताएं) हैं। उपयोगकर्ताओं के लिए, यह जानकारी है कि कौन से ट्रैक, कौन से कलाकार और कितनी बार वे सुनते हैं (उपयोगकर्ता रेटिंग)। प्रसंस्करण में आसानी के लिए, सभी सहसंबंध एक संरचना में दर्ज किए जाते हैं - स्वाद का ग्राफ।

अपने अपेक्षाकृत कॉम्पैक्ट आकार के कारण, स्वाद का ग्राफ वास्तविक समय में सामग्री के व्यक्तिगत चयन से संबंधित कार्यों की एक विस्तृत श्रृंखला को हल करने की अनुमति देता है। पूरे सिस्टम में सबसे लोकप्रिय पटरियों की सूची होने से आप निम्न कर सकते हैं:
- एक विशिष्ट उपयोगकर्ता के लिए उनकी प्रासंगिकता का मूल्यांकन करें (उपयोगकर्ता और पटरियों के बीच एन से अधिक लंबाई के रास्तों की संख्या और वजन)
- कनेक्टेड ब्लॉकों में उपयोगकर्ता के स्वाद को तोड़ना (आत्मीय प्रसार विधि का उपयोग करके आम पड़ोसियों के सबग्राफ के घनत्व द्वारा क्लस्टरिंग) और ब्लॉक के लिए सिफारिशों का चयन करें (व्यक्तिगत पेजरैंक)
उपयोगकर्ता द्वारा संकलित गीतों का एक संग्रह होने से, एक समान रोचक ट्रैक (उपयोगकर्ता के लिए परिणाम के संग्रह और निजीकरण के लिए भी पीपीआर) उठा सकता है। कैसे, क्यों और क्यों पाया जा सकता है पर तकनीकी विवरण।
तथ्य यह है कि उपयोग किए गए किसी भी समाधान को नए / सफलता / अद्वितीय (आवश्यक के रूप में रेखांकित नहीं) कहा जा सकता है या तो एल्गोरिदम के दृष्टिकोण से या प्रौद्योगिकी के दृष्टिकोण से, चौकस पाठक के टकटकी से नहीं बचेंगे। फिर बड़े बाजार पर आधारित उच्च गुणवत्ता वाले समाधान रूसी बाजार पर इतने कम क्यों दिखाई देते हैं?
बहुत सारे आंकड़ों को विवादों में तोड़ दिया गया (और अभी भी टूट जाता है) कितना डेटा वास्तव में "बड़ा" माना जा सकता है। लेकिन क्या यह वास्तव में आकार के बारे में है? डेटा के सैकड़ों गीगाबाइट्स / टेराबाइट्स / पेटाबाइट्स (अंडरलाइन) अपने आप में मूल्यवान नहीं हैं - उनका मुख्य उद्देश्य अतीत को
समझने और भविष्य की
भविष्यवाणी करने में मदद
करना है। जाहिर है, इसके लिए अकेले डेटा पर्याप्त नहीं है - विश्लेषण एल्गोरिदम, प्रौद्योगिकियां और उन्हें लागू करने वाले लोगों की आवश्यकता है।
कई कंपनियों के पास डेटा सरणियां होती हैं जो व्यवसाय का उचित लाभ उठाने के लिए पर्याप्त होती हैं। प्रसंस्करण एल्गोरिदम व्यापक रूप से जाना जाता है और सक्रिय रूप से विकसित होता है, प्रसंस्करण प्रौद्योगिकियां विभिन्न मूल्य श्रेणियों (खुले स्रोत सॉफ़्टवेयर से जो स्टॉक आयरन से मिलियन-मिलियन एकीकृत सिस्टम पर चल सकती हैं) में भी उपलब्ध हैं। जाहिर है, आखिरी, सबसे महत्वपूर्ण घटक गायब है - अनुभवी लोग जो सभी घटकों को एक साथ इकट्ठा कर सकते हैं।
यह एक प्रोग्रामर को खोजने के लिए काफी आसान है जो जावा में कचरा संग्रह की सभी बारीकियों को जानता है, जिसमें कई प्रकार के एक दर्जन डीबीएमएस के साथ काम करने का अनुभव है, जो स्प्रिंग / ट्रोव / हाइबरनेट और यहां तक कि पचास पुस्तकालयों और पैकेजों से पूरी तरह परिचित हैं। हालांकि, उनमें से अधिकांश तकनीकी रूप से उन्मुख हैं और साहित्य के साथ काम करने के लिए "तेज नहीं", सांख्यिकीय प्रसंस्करण के नए तरीकों में महारत हासिल करने के लिए, प्रयोगों की स्थापना के लिए। इसके लिए सक्षम गणितज्ञ को ढूंढना अधिक कठिन है, लेकिन यह भी संभव है। लेकिन इस मामले में मतलाब कोड के आकारहीन बादल से आगे बढ़ना बेहद मुश्किल होगा। एक ऐसे व्यक्ति को खोजने की संभावना जो दो दुनियाओं में से सबसे अच्छा ले सकता है, इतना छोटा है कि आम तौर पर उनके अस्तित्व पर संदेह है।
ऐसा लगता है कि कई विश्वविद्यालय के स्नातकों को इस तरह के मूल्यवान पारिस्थितिक क्षेत्र में जाने का प्रयास करना चाहिए, लेकिन कल के छात्रों में भी "तकनीकी" और "गणितज्ञों" में समान स्तरीकरण है। बौद्धिक विश्लेषण की समस्याओं में पूर्व में "यहाँ क्या करना है" के कैप-एंड-शूट दृष्टिकोण से ग्रस्त हैं, बाद वाले गणित के निर्वाण में जाते हैं और हमेशा वापस नहीं आते हैं। लेकिन उनकी सीखने की क्षमता अभी तक परिपक्व विशेषज्ञों की तरह सुस्त नहीं है, हालांकि उनके विकास के लिए गंभीर अतिरिक्त निवेश की आवश्यकता होती है।
जटिलता और पूंजी की तीव्रता के बावजूद, एक प्रभावी डेटा माइनिंग सिस्टम उपयोगकर्ताओं के लिए परियोजना को बहुत आकर्षक और सुविधाजनक बनाने में सक्षम है, जो दर्शकों में वृद्धि प्रदान करता है।