⛑️ 👩‍🍳 🤾🏿 उपयोगकर्ता रेटिंग के आधार पर छँटाई सामग्री के बारे में: भाग 2 🥗 🧕 🏇🏼

पिछले लेख ने बड़ी दिलचस्पी को आकर्षित किया। और यहां तक कि, कुछ समय के लिए, वह 24 घंटों में सर्वश्रेष्ठ बन गई। मेरे पास कुछ विचार थे और टिप्पणियों में कुछ सवालों के अधिक विस्तार से उत्तर दिए जाने की आवश्यकता है।

एक वोट बनाम "अमीर हो अमीर" की समस्या

आपको याद दिला दूं कि मुख्य समस्या यह है कि यदि आप किसी लेख या उत्पाद की रेटिंग को उपयोगकर्ता की औसत रेटिंग (सबसे सरल विकल्प) के अंकगणितीय औसत के रूप में मानते हैं, तो संभव है कि पांच अंकों में एक वोट वाला लेख 5 अंकों में 100 वोटों वाले लेख से अधिक हो। 4p में। हम इसे "एकल-वोट मुद्दा" कहते हैं, हालांकि यह केवल एकल-वोट लेख के लिए मौजूद नहीं है।

ऐसा होने से रोकने के लिए, किसी को वोट की संख्या को ध्यान में रखना चाहिए। हालाँकि, अगर हम ऐसा करते हैं, तो हमें एक और समस्या आएगी: “अमीर अमीर हो जाओ”। पुराने लेखों में अधिक वोट होंगे, उनकी रेटिंग अधिक होगी, उन्हें अधिक रूपांतरण और यहां तक कि अधिक वोट प्राप्त होंगे और इसलिए, युवा लेखों से और भी अलग हो जाएंगे। यहां तक कि अगर सभी लेख एक ही समय में जोड़े जाते हैं, तो भी यह प्रभाव देखा जाएगा। केवल शीर्ष पर पुराने लेख नहीं होंगे, लेकिन जो लोग भाग्यशाली थे उन्हें वोट की शुरुआत में एक यादृच्छिक वोट मिला।

रेटिंग के साथ जितने अधिक संक्रमण होते हैं, यह प्रभाव उतना ही मजबूत होता है। विरोधाभास यह है कि रेटिंग की जितनी अधिक आवश्यकता है, उतना ही बुरा माना जाता है। यह कुछ सुंदर फ़ंक्शन के साथ दोनों समस्याओं को हल करने के लिए काम नहीं करेगा, आप केवल एक मध्य जमीन पा सकते हैं, ताकि इन दो समस्याओं के कुल प्रभाव को कम किया जा सके।

हालांकि कुछ "सुचारू नहीं" समाधान हैं। उदाहरण के लिए, एक निश्चित संख्या से कम रेटिंग वाले लेखों को रेटिंग से बाहर करें। हालाँकि, इस मामले में, कुछ लेखों को लंबे समय के लिए रेटिंग से हटा दिया जाएगा। यदि किसी लेख के परिवर्तन का मुख्य भाग रेटिंग से प्राप्त होता है, तो कुछ लेख कुछ वर्षों के बाद ही उसमें मिल जाएंगे। कुछ मामलों में, यह प्रभाव स्वीकार्य नहीं है।

एक और विकल्प एक निश्चित अवधि के लिए रेटिंग प्रदर्शित करना है। उदाहरण के लिए, पिछले 24 घंटों में, एक हब के रूप में अमीर अभी भी अमीर हो जाएगा और कई घंटों की उम्र वाले एक लेख में 23 घंटे के लेख को पछाड़ने की बहुत कम संभावना है।

प्लस / माइनस और न्याय की भावना

प्लस / माइनस रेटिंग में, वोटों की संख्या अंतर्निहित रूप से शामिल होती है। पेशेवरों और विपक्षों का योग एक लेख को देखे जाने की संख्या पर निर्भर करता है। जैसा कि पहले ही उल्लेख किया गया है, इस रेटिंग में कोई "एक-वोट समस्या" नहीं है। हालांकि, "अमीर हो रही है अमीर" का प्रभाव ज्यादातर मामलों में मजबूत होना चाहिए, अन्य प्रकार की रेटिंग के लिए "एक वोट" की समस्या को हल करना। हालाँकि, ऐसा नहीं होता ...

अधिकांश उपयोगकर्ता कर्तव्यनिष्ठ हैं और साइट की मदद करने का प्रयास करते हैं। सम्मानित लोगों की तुलना में गुंडे बहुत छोटे होते हैं। यह विकिपीडिया का दर्शन है और यह आसानी से काम करता है कि सिर्फ विकिपीडिया खोलकर सुनिश्चित किया जाए।

उपयोगकर्ता को अपनी राय में एक प्लस, कम करके आंका जाने वाला लेख, एक प्लस लेख की तुलना में पसंद किया जाता है, जो उसे पसंद है, लेकिन उसकी राय में, रेटिंग में सही स्थान पर है। एक "ओवररेटेड" लेख का एक माइनस "सही" स्थान पर एक लेख के माइनस से भी अधिक होने की संभावना है।

आप पिछले 24 घंटों में हेब्रा के परिणाम देख सकते हैं, गणित की दृष्टि से, इसके लगभग सभी लेख 24 घंटे के करीब होने चाहिए। लेकिन ऐसा है नहीं। इसमें बहुत कम युवा लेख नहीं हैं, लेकिन केवल 3-5 घंटे की आयु वाले लेख अक्सर अक्सर पहले होते हैं। स्व-संगठन तंत्र काम करता है।

सितारों के लिए, यह तंत्र भी काम करता है, लेकिन बहुत बुरा।

सांख्यिकीय त्रुटि

यदि हम "एक-वोट की समस्या" को दूर करने की कोशिश कर रहे हैं, तो हमें एक निश्चित राशि की गणना करने की आवश्यकता है, इसे "सांख्यिकीय त्रुटि" कहें और सरलतम स्थिति में इसे लेख की रेटिंग से घटा दें। सवाल यह है कि इसकी गणना कैसे की जाए। यहां तक कि अगर हम वितरण, उसके गुणांक, त्रुटि को जानते हैं, तो हमें जिस आत्मविश्वास की आवश्यकता होती है, उसके आधार पर, काफी अंतराल में उतार-चढ़ाव हो सकता है। तो, किसी भी मामले में, त्रुटि अनुमान व्यक्तिपरक है। उदाहरण के लिए, कोई भी 100% सुनिश्चित नहीं हो सकता है कि एक भरने वाली मशीन एक रस पैकेज में एक लीटर रस one 100ml डालेगी। एक ऑटोमेटन विफल हो सकता है और कुछ भी नहीं डाल सकता है, इस की संभावना, ज़ाहिर है, छोटा है, लेकिन शून्य नहीं है।

प्रयोगात्मक भौतिकी में, यह आम तौर पर स्वीकार किया जाता है कि यादृच्छिक माप त्रुटि उनके संख्या के मूल के रूप में प्रयोगों की बढ़ती संख्या के साथ घट जाती है। हालाँकि, मुझे कहना होगा कि गणित के दृष्टिकोण से यह केवल एक सामान्य वितरण के लिए सही है, और मतदान के परिणाम, कभी-कभी, इससे बहुत भिन्न होते हैं। हालांकि, यह विधि किसी भी मामले के लिए एक अच्छा परिणाम उत्पन्न करेगी, बाद में मैं समझाऊंगा कि ऐसा क्यों होता है।

$छवि$
यहाँ हमारी त्रुटि है। सिग्मा मानक विचलन है (बाद में मानक विचलन के रूप में संदर्भित)। दूसरे शब्दों में, वर्ग विचलन के योग की जड़। यह बिखराव आकलन का कुछ उपाय है। यदि हम इसे घटाते हैं, तो हम रेटिंग के लिए कुछ कम बाध्य होंगे।

यहीं से समस्याएं पैदा होती हैं। सबसे पहले, आप इसे पुरानी रेटिंग में तभी गिन सकते हैं, जब आपको सभी उपयोगकर्ता रेटिंग अलग-अलग याद हों। दूसरा यह है कि एक वोट वाले लेख के लिए, RMSE = 0, और कम संख्या में वोट वाले लेखों के लिए, RMSE को एक सांख्यिकीय त्रुटि के साथ निर्धारित किया जाएगा।

इन दो समस्याओं को हल करने का सबसे आसान तरीका है कि DIS मानक को लेख की रेटिंग के प्रतिशत के रूप में माना जाए।

$छवि$

कहां, री - लेख रेटिंग। एक डॉट के साथ री - परिणामी रेटिंग। एक बिंदु के बिना री, प्रारंभिक रेटिंग सभी वोटों का अंकगणितीय माध्य है। N वोटों की संख्या है।

जहां k 0 से 1. के लिए है। k = 0 के लिए, केस अंकगणितीय माध्य में घटता है, k = 1 के लिए, एक वोट वाले लेख में शून्य वजन होगा। k रूढ़िवाद का एक उपाय है, जितना अधिक होता है, अमीर तेजी से अमीर हो जाते हैं, लेकिन एक आवाज का प्रभाव कम होता है। समस्या एक संतुलन खोजने की है, इसलिए, कई मामलों में मध्य के रूप में 0.5 का मूल्य उचित होगा।

यह विधि "एक वोट" की समस्या को हल करती है। एक ही समय में, जड़ की वजह से बड़ी संख्या में वोटों के लिए, इसका विकास "अमीर अमीर हो" के प्रभाव को कम करता है। दंड को 10 गुना कम करने के लिए, आपको वोटों की संख्या को 100 गुना बढ़ाने की आवश्यकता है। इसलिए, इस पद्धति को न केवल सामान्य वितरण के लिए लागू किया जा सकता है।

प्रतिस्थापन

पिछले लेख (औसत वजन) से सूत्र की तुलना में, यह बड़ी संख्या में वोटों के साथ कम रूढ़िवादी है। दूसरे शब्दों में, लेख के लिए बड़ी संख्या में यात्राओं के साथ "अमीर हो रहा है अमीर" का प्रभाव कमजोर होगा। हालाँकि, इस सूत्र के नुकसान हैं। यह स्पष्ट नहीं है कि यह क्या दर्शाता है, पिछले सूत्र ने वास्तविकता में लेख की रेटिंग का कुछ आकलन किया था। एक और समस्या यह है कि लेख रेटिंग न्यूनतम रेटिंग की तुलना में कम हो सकती है, k = 1 और n = 1 के लिए रेटिंग शून्य है जब न्यूनतम रेटिंग के रूप में, यह आमतौर पर 1 होता है।

द्वारा और बड़े, इस सूत्र में हमने लेख की रेटिंग का हिस्सा लिया, जिसे हमने अविश्वसनीय माना, और इसे हटा दिया, इसे शून्य से बदल दिया। यदि रेटिंग एक से आती है, तो आपको इसे एक इकाई के साथ बदलने की आवश्यकता है। हालाँकि, यदि हम इसे सभी लेखों की औसत रेटिंग से बदल देते हैं, तो हमारा परिणाम उस रेटिंग का कुछ आकलन होगा जो लेख भविष्य में प्राप्त करेगा, न कि इसकी निचली सीमा से। जो अधिक सही है और हमारी रेटिंग समझ में आएगी। निचले सीमा की तुलना में लगभग कोई मतलब नहीं है, लेकिन चटाई की तुलना करना। अपेक्षा (पूर्वानुमान) - है इसके अलावा, यह युवा लेखों के लिए "अमीर हो रही अमीर" के प्रभाव को कम करेगा। प्रारंभ में, युवा लेख रैंकिंग के अंत में नहीं होंगे, बल्कि इसके बीच में होंगे। आखिरकार, बिना न्यूनतम वोट वाले लेख की तुलना में बिना वोट वाला एक लेख लगभग निश्चित रूप से बेहतर है।

$छवि$ ।
एक डैश के साथ आर एक साइट पर सभी लेखों की औसत रेटिंग है। सूत्र लेख की रेटिंग का हिस्सा बदलता है, औसत लेख की रेटिंग के हिस्से के समान। यह न केवल सकारात्मक रेटिंग, बल्कि एक युवा लेख की नकारात्मक रेटिंग के प्रभाव को कम करेगा।

यह एक औसत रेटिंग वाले लेख की कुछ औसत रेटिंग है। अब मैं यह साबित करूंगा कि यह 1-k / sqrt (n) (रेटिंग के विश्वसनीय भाग का अनुमान) और k / sqrt (n) - (लेख रेटिंग का अविश्वसनीय हिस्सा) के गुणांक वाले सभी लेखों की औसत रेटिंग के साथ औसत लेख रेटिंग का अंकगणितीय औसत है ।

$छवि$

भारित औसत मूल्य हमेशा तत्वों के न्यूनतम और अधिकतम मूल्यों के बीच होता है। यानी अंतिम रेटिंग हमेशा आवश्यक सीमा में होगी (उदाहरण के लिए, 5 सितारों के लिए 1 से 5 तक)। यह हमेशा "सरल रेटिंग" और औसत लेख रेटिंग के बीच होता है।

हमारा सूत्र n = 0 पर अनिश्चित है और हम इसके मूल्य के लिए लेखों की औसत रेटिंग लेंगे। नतीजतन, सूत्र फार्म ले जाएगा:

$छवि$

यदि यह लेख समझने में काफी सरल है, तो मैं इसे जारी रखूंगा और बात करूंगा कि मानक विचलन पर विचार करते हुए रेटिंग में सुधार कैसे करें और "मुझे पसंद है" शैली में रेटिंग के बारे में और जब कांच पर सूत्र अभी भी लागू है।

पीएस अगर किसी के पास कई हजार वोटों के साथ आधार है। और आवाज़ों को अलग से याद किया जाता है। यह साझा करने के लिए एक बहुत बड़ा अनुरोध है। कई डेटाबेस संख्यात्मक पूर्वानुमान संकेतक प्रदान करेंगे।

अगली कड़ी में पढ़िए

उपयोगकर्ता रेटिंग के आधार पर छँटाई सामग्री के बारे में: भाग 2

एक वोट बनाम "अमीर हो अमीर" की समस्या

प्लस / माइनस और न्याय की भावना

सांख्यिकीय त्रुटि

प्रतिस्थापन

More articles: