☂️ 🥤 🔦 हेरिटेज हेल्थ प्राइज डाटा माइनिंग प्रतियोगिता संपन्न हुई 👏🏿 👩🏽‍🤝‍👨🏻 😖

नेटफ्लिक्स पुरस्कार के बाद से बड़े डेटा सरणियों के विश्लेषण के क्षेत्र में सबसे बड़ी प्रतियोगिता समाप्त हो गई है। और यद्यपि शीर्ष दस और विजेता के आधिकारिक परिणाम दो महीने में घोषित किए जाएंगे, परिणाम पहले ही अभिव्यक्त किए जा सकते हैं।
लक्ष्य पिछले दो वर्षों के उपचार के आंकड़ों के आधार पर अगले वर्ष के रोगियों के अस्पताल में भर्ती होने की भविष्यवाणी करना था। प्रायोजक के अनुसार, यह उन रोगियों पर अधिक ध्यान देने की अनुमति देगा, जिन्हें उसकी सबसे अधिक आवश्यकता है, जिससे अस्पताल में भर्ती होने पर सालाना यूएसए में खर्च किए गए $ 30 बिलियन का हिस्सा बचाया जा सके।
आयोजकों द्वारा घोषित $ 3,000,000 का पुरस्कार 0.4 RMSLE की स्थापित सटीकता सीमा के कारण अप्राप्य था (कम बेहतर है; सर्वोत्तम परिणाम 0.46 है; पहले और सौवें स्थान के बीच का अंतर 0.008 है; RMSLE, लघुगणक का मानक विचलन है) और डेटा प्रदान किया गया - वे बस सटीकता के इस स्तर तक पहुंचने के लिए पर्याप्त जानकारी नहीं थी। इसलिए, वास्तव में, संघर्ष $ 500,000 के लिए चला गया, जो कि सर्वश्रेष्ठ टीम के लिए गया, मध्यवर्ती खत्म और अमूल्य अनुभव का एक कोष।

कार्य की जटिलता के बावजूद, डेढ़ हजार से अधिक ने अपना हाथ आजमाना चाहा। वे कहते हैं कि दो नोबेल पुरस्कार विजेताओं ने भी प्रतियोगिता में भाग लिया, लेकिन वे कौन थे और क्या सफलताओं को मान्यता नहीं मिली। यह देखते हुए कि गणित और प्रोग्रामिंग के क्षेत्र में वे मौजूद नहीं हैं, दवा एक सलाहकार या अर्थशास्त्र के रूप में बनी हुई है।

प्रतियोगिता दो साल तक चली और इसमें तीन मध्यवर्ती फ़ाइनल थे, जिनमें से प्रत्येक में दो पुरस्कार थे। विजेता, प्रतियोगिता की शर्तों के अनुसार, अपने तरीकों का विवरण देते हैं। हालांकि, इससे प्रतिद्वंद्वियों को ज्यादा मदद नहीं मिली, तथ्य यह है कि मुख्य एल्गोरिदम अच्छी तरह से जाना जाता है - ये निर्णय पेड़ , रैंडम फॉरेस्ट (यादृच्छिक वन) , ग्रेडिएंट बूस्टिंग , ग्रेडिएंट वंश , रिज रिग्रेशन (रिज रिग्रेशन, तिखोनोव नियमितीकरण), उनके संशोधनों और संयोजन हैं। एल्गोरिदम के कार्यान्वयन, उपयोग, संयोजन और छोटे बदलावों की जटिलताओं में अंतर थे। हालांकि, इतने सारे विवरण थे कि यह स्पष्ट नहीं था - जिसके कारण परिणाम वास्तव में प्राप्त हुआ है। यही है, विजेता क्या करते हैं - यह स्पष्ट है, यह स्पष्ट नहीं है कि वे ऐसा क्यों करते हैं, और क्यों वे काम करते हैं।

विजेताओं को मध्यवर्ती फिनिश में निम्नानुसार विभाजित किया गया था:

1. मार्केट मेकर्स 2. विलेम मेस्ट्रोम
1. मार्केट मेकर्स 2. एडवर्ड एंड विलेम
1. एडवर्ड और विलेम 2. क्रेस्केंडो

तीसरे इंटरमीडिएट खत्म होने से पहले विषमताएं शुरू हुईं - सभी तीन टीमों ने लगभग 30% टेस्ट डेटा के लिए दिन में एक बार मॉडल के सत्यापन का उपयोग नहीं किया, और नेता बिना किसी लड़ाई के बदल गए। कारण एक टीम में संघ था, जबकि प्रतियोगिता शुरू होने के बाद से हर समय भेजे गए मॉडल की सीमा को पार करना असंभव था - वे चमत्कारिक रूप से मिले।

समापन के दिन, परीक्षण डेटा के 30% के लिए प्रारंभिक परिणाम इस तरह दिखे।
लेकिन सबसे दिलचस्प छिपे हुए भाग के परिणामों में था, कुछ दिनों बाद प्रकाशित हुआ , एल्गोरिदम के संचालन के सही अनुमानों को दर्शाता है।
पहले 50 स्थानों के लिए सारांश तालिका:

मुख्य दुश्मन वह प्रभाव था जो अल्माटा टीम के बीच स्पष्ट रूप से देखा गया था, जो खुली रेटिंग में पहले स्थान पर था। यह ओवरफिटिंग है। उन्होंने उस डेटा से सभी उपयोगी जानकारी निकाली, जिस पर रेटिंग के अनुमान के आधार पर रेटिंग पर विचार किया गया था, और इसके साथ उन्होंने सेट के लिए विशिष्ट हानिकारक जानकारी को कैप्चर किया। नतीजतन, अज्ञात डेटा के लिए अनुमान बिगड़ जाता है (या कम से कम सुधार नहीं होता है)। परिणाम - 1 से 19 वें स्थान पर एक चाल।

पहले 10 प्रतिभागियों के विजेता और स्कोर की आधिकारिक घोषणा जून की शुरुआत में हेल्थ डाटापलूजा IV सम्मेलन में की जाएगी। हालांकि, POWERDOT की जीत के बारे में लगभग कोई संदेह नहीं है - मध्यवर्ती खत्म के विजेताओं के विलय से गठित टीम। अपने निपटान में 3 सर्वश्रेष्ठ परिणामों के बाद, उन्हें रेटिंग के छिपे हुए भाग से स्पष्ट रूप से जानने का अवसर मिला, जिसके बाद उनके साथ व्यवहार करना असंभव हो गया।
लेकिन कुछ सीखना था। मेरे लिए, यह अंतिम इंटरमीडिएट के अंतिम 27 वें के परिणामों के बाद 261 वें स्थान से एक कदम था। यह अधिक हो सकता था - प्रक्रियाओं की एक समझ बहुत देर हो चुकी थी, लेकिन अगली बार यह अधिक दिलचस्प होगा।

मध्यवर्ती फ़िनिश के विजेताओं के तरीकों का वर्णन (विजेता एल्गोरिथ्म शायद उनके संयोजन से बना होगा) यहां पाया जा सकता है (बहुत सारे गणित और युद्धाभ्यास, जो मुझे अभी भी समझ नहीं हैं)।

UPD 2013.07.15। जैसा कि भविष्यवाणी की गई थी, POWERDOT ने 0.461197 के स्कोर के साथ जीत हासिल की। कई खातों का उपयोग करने वाले नियमों के उल्लंघनकर्ताओं से छीनने के बाद, अंतिम तालिका की उपस्थिति बदल गई। और आयोजक पहले के परिणामों के आधार पर निमंत्रण के साथ प्रतियोगिता के दूसरे भाग का वादा करते हैं।

हेरिटेज हेल्थ प्राइज डाटा माइनिंग प्रतियोगिता संपन्न हुई

More articles: