उपयोगकर्ता रेटिंग के आधार पर छँटाई सामग्री के बारे में: भाग 2

पिछले लेख ने बड़ी दिलचस्पी को आकर्षित किया। और यहां तक ​​कि, कुछ समय के लिए, वह 24 घंटों में सर्वश्रेष्ठ बन गई। मेरे पास कुछ विचार थे और टिप्पणियों में कुछ सवालों के अधिक विस्तार से उत्तर दिए जाने की आवश्यकता है।
छवि



एक वोट बनाम "अमीर हो अमीर" की समस्या


आपको याद दिला दूं कि मुख्य समस्या यह है कि यदि आप किसी लेख या उत्पाद की रेटिंग को उपयोगकर्ता की औसत रेटिंग (सबसे सरल विकल्प) के अंकगणितीय औसत के रूप में मानते हैं, तो संभव है कि पांच अंकों में एक वोट वाला लेख 5 अंकों में 100 वोटों वाले लेख से अधिक हो। 4p में। हम इसे "एकल-वोट मुद्दा" कहते हैं, हालांकि यह केवल एकल-वोट लेख के लिए मौजूद नहीं है।

ऐसा होने से रोकने के लिए, किसी को वोट की संख्या को ध्यान में रखना चाहिए। हालाँकि, अगर हम ऐसा करते हैं, तो हमें एक और समस्या आएगी: “अमीर अमीर हो जाओ”। पुराने लेखों में अधिक वोट होंगे, उनकी रेटिंग अधिक होगी, उन्हें अधिक रूपांतरण और यहां तक ​​कि अधिक वोट प्राप्त होंगे और इसलिए, युवा लेखों से और भी अलग हो जाएंगे। यहां तक ​​कि अगर सभी लेख एक ही समय में जोड़े जाते हैं, तो भी यह प्रभाव देखा जाएगा। केवल शीर्ष पर पुराने लेख नहीं होंगे, लेकिन जो लोग भाग्यशाली थे उन्हें वोट की शुरुआत में एक यादृच्छिक वोट मिला।

रेटिंग के साथ जितने अधिक संक्रमण होते हैं, यह प्रभाव उतना ही मजबूत होता है। विरोधाभास यह है कि रेटिंग की जितनी अधिक आवश्यकता है, उतना ही बुरा माना जाता है। यह कुछ सुंदर फ़ंक्शन के साथ दोनों समस्याओं को हल करने के लिए काम नहीं करेगा, आप केवल एक मध्य जमीन पा सकते हैं, ताकि इन दो समस्याओं के कुल प्रभाव को कम किया जा सके।

हालांकि कुछ "सुचारू नहीं" समाधान हैं। उदाहरण के लिए, एक निश्चित संख्या से कम रेटिंग वाले लेखों को रेटिंग से बाहर करें। हालाँकि, इस मामले में, कुछ लेखों को लंबे समय के लिए रेटिंग से हटा दिया जाएगा। यदि किसी लेख के परिवर्तन का मुख्य भाग रेटिंग से प्राप्त होता है, तो कुछ लेख कुछ वर्षों के बाद ही उसमें मिल जाएंगे। कुछ मामलों में, यह प्रभाव स्वीकार्य नहीं है।

एक और विकल्प एक निश्चित अवधि के लिए रेटिंग प्रदर्शित करना है। उदाहरण के लिए, पिछले 24 घंटों में, एक हब के रूप में अमीर अभी भी अमीर हो जाएगा और कई घंटों की उम्र वाले एक लेख में 23 घंटे के लेख को पछाड़ने की बहुत कम संभावना है।

प्लस / माइनस और न्याय की भावना


प्लस / माइनस रेटिंग में, वोटों की संख्या अंतर्निहित रूप से शामिल होती है। पेशेवरों और विपक्षों का योग एक लेख को देखे जाने की संख्या पर निर्भर करता है। जैसा कि पहले ही उल्लेख किया गया है, इस रेटिंग में कोई "एक-वोट समस्या" नहीं है। हालांकि, "अमीर हो रही है अमीर" का प्रभाव ज्यादातर मामलों में मजबूत होना चाहिए, अन्य प्रकार की रेटिंग के लिए "एक वोट" की समस्या को हल करना। हालाँकि, ऐसा नहीं होता ...

अधिकांश उपयोगकर्ता कर्तव्यनिष्ठ हैं और साइट की मदद करने का प्रयास करते हैं। सम्मानित लोगों की तुलना में गुंडे बहुत छोटे होते हैं। यह विकिपीडिया का दर्शन है और यह आसानी से काम करता है कि सिर्फ विकिपीडिया खोलकर सुनिश्चित किया जाए।

उपयोगकर्ता को अपनी राय में एक प्लस, कम करके आंका जाने वाला लेख, एक प्लस लेख की तुलना में पसंद किया जाता है, जो उसे पसंद है, लेकिन उसकी राय में, रेटिंग में सही स्थान पर है। एक "ओवररेटेड" लेख का एक माइनस "सही" स्थान पर एक लेख के माइनस से भी अधिक होने की संभावना है।

आप पिछले 24 घंटों में हेब्रा के परिणाम देख सकते हैं, गणित की दृष्टि से, इसके लगभग सभी लेख 24 घंटे के करीब होने चाहिए। लेकिन ऐसा है नहीं। इसमें बहुत कम युवा लेख नहीं हैं, लेकिन केवल 3-5 घंटे की आयु वाले लेख अक्सर अक्सर पहले होते हैं। स्व-संगठन तंत्र काम करता है।

सितारों के लिए, यह तंत्र भी काम करता है, लेकिन बहुत बुरा।

सांख्यिकीय त्रुटि


यदि हम "एक-वोट की समस्या" को दूर करने की कोशिश कर रहे हैं, तो हमें एक निश्चित राशि की गणना करने की आवश्यकता है, इसे "सांख्यिकीय त्रुटि" कहें और सरलतम स्थिति में इसे लेख की रेटिंग से घटा दें। सवाल यह है कि इसकी गणना कैसे की जाए। यहां तक ​​कि अगर हम वितरण, उसके गुणांक, त्रुटि को जानते हैं, तो हमें जिस आत्मविश्वास की आवश्यकता होती है, उसके आधार पर, काफी अंतराल में उतार-चढ़ाव हो सकता है। तो, किसी भी मामले में, त्रुटि अनुमान व्यक्तिपरक है। उदाहरण के लिए, कोई भी 100% सुनिश्चित नहीं हो सकता है कि एक भरने वाली मशीन एक रस पैकेज में एक लीटर रस one 100ml डालेगी। एक ऑटोमेटन विफल हो सकता है और कुछ भी नहीं डाल सकता है, इस की संभावना, ज़ाहिर है, छोटा है, लेकिन शून्य नहीं है।

प्रयोगात्मक भौतिकी में, यह आम तौर पर स्वीकार किया जाता है कि यादृच्छिक माप त्रुटि उनके संख्या के मूल के रूप में प्रयोगों की बढ़ती संख्या के साथ घट जाती है। हालाँकि, मुझे कहना होगा कि गणित के दृष्टिकोण से यह केवल एक सामान्य वितरण के लिए सही है, और मतदान के परिणाम, कभी-कभी, इससे बहुत भिन्न होते हैं। हालांकि, यह विधि किसी भी मामले के लिए एक अच्छा परिणाम उत्पन्न करेगी, बाद में मैं समझाऊंगा कि ऐसा क्यों होता है।

छवि
यहाँ हमारी त्रुटि है। सिग्मा मानक विचलन है (बाद में मानक विचलन के रूप में संदर्भित)। दूसरे शब्दों में, वर्ग विचलन के योग की जड़। यह बिखराव आकलन का कुछ उपाय है। यदि हम इसे घटाते हैं, तो हम रेटिंग के लिए कुछ कम बाध्य होंगे।

यहीं से समस्याएं पैदा होती हैं। सबसे पहले, आप इसे पुरानी रेटिंग में तभी गिन सकते हैं, जब आपको सभी उपयोगकर्ता रेटिंग अलग-अलग याद हों। दूसरा यह है कि एक वोट वाले लेख के लिए, RMSE = 0, और कम संख्या में वोट वाले लेखों के लिए, RMSE को एक सांख्यिकीय त्रुटि के साथ निर्धारित किया जाएगा।

इन दो समस्याओं को हल करने का सबसे आसान तरीका है कि DIS मानक को लेख की रेटिंग के प्रतिशत के रूप में माना जाए।

छवि

कहां, री - लेख रेटिंग। एक डॉट के साथ री - परिणामी रेटिंग। एक बिंदु के बिना री, प्रारंभिक रेटिंग सभी वोटों का अंकगणितीय माध्य है। N वोटों की संख्या है।

जहां k 0 से 1. के लिए है। k = 0 के लिए, केस अंकगणितीय माध्य में घटता है, k = 1 के लिए, एक वोट वाले लेख में शून्य वजन होगा। k रूढ़िवाद का एक उपाय है, जितना अधिक होता है, अमीर तेजी से अमीर हो जाते हैं, लेकिन एक आवाज का प्रभाव कम होता है। समस्या एक संतुलन खोजने की है, इसलिए, कई मामलों में मध्य के रूप में 0.5 का मूल्य उचित होगा।

यह विधि "एक वोट" की समस्या को हल करती है। एक ही समय में, जड़ की वजह से बड़ी संख्या में वोटों के लिए, इसका विकास "अमीर अमीर हो" के प्रभाव को कम करता है। दंड को 10 गुना कम करने के लिए, आपको वोटों की संख्या को 100 गुना बढ़ाने की आवश्यकता है। इसलिए, इस पद्धति को न केवल सामान्य वितरण के लिए लागू किया जा सकता है।

प्रतिस्थापन


पिछले लेख (औसत वजन) से सूत्र की तुलना में, यह बड़ी संख्या में वोटों के साथ कम रूढ़िवादी है। दूसरे शब्दों में, लेख के लिए बड़ी संख्या में यात्राओं के साथ "अमीर हो रहा है अमीर" का प्रभाव कमजोर होगा। हालाँकि, इस सूत्र के नुकसान हैं। यह स्पष्ट नहीं है कि यह क्या दर्शाता है, पिछले सूत्र ने वास्तविकता में लेख की रेटिंग का कुछ आकलन किया था। एक और समस्या यह है कि लेख रेटिंग न्यूनतम रेटिंग की तुलना में कम हो सकती है, k = 1 और n = 1 के लिए रेटिंग शून्य है जब न्यूनतम रेटिंग के रूप में, यह आमतौर पर 1 होता है।

द्वारा और बड़े, इस सूत्र में हमने लेख की रेटिंग का हिस्सा लिया, जिसे हमने अविश्वसनीय माना, और इसे हटा दिया, इसे शून्य से बदल दिया। यदि रेटिंग एक से आती है, तो आपको इसे एक इकाई के साथ बदलने की आवश्यकता है। हालाँकि, यदि हम इसे सभी लेखों की औसत रेटिंग से बदल देते हैं, तो हमारा परिणाम उस रेटिंग का कुछ आकलन होगा जो लेख भविष्य में प्राप्त करेगा, न कि इसकी निचली सीमा से। जो अधिक सही है और हमारी रेटिंग समझ में आएगी। निचले सीमा की तुलना में लगभग कोई मतलब नहीं है, लेकिन चटाई की तुलना करना। अपेक्षा (पूर्वानुमान) - है इसके अलावा, यह युवा लेखों के लिए "अमीर हो रही अमीर" के प्रभाव को कम करेगा। प्रारंभ में, युवा लेख रैंकिंग के अंत में नहीं होंगे, बल्कि इसके बीच में होंगे। आखिरकार, बिना न्यूनतम वोट वाले लेख की तुलना में बिना वोट वाला एक लेख लगभग निश्चित रूप से बेहतर है।

छवि
एक डैश के साथ आर एक साइट पर सभी लेखों की औसत रेटिंग है। सूत्र लेख की रेटिंग का हिस्सा बदलता है, औसत लेख की रेटिंग के हिस्से के समान। यह न केवल सकारात्मक रेटिंग, बल्कि एक युवा लेख की नकारात्मक रेटिंग के प्रभाव को कम करेगा।

यह एक औसत रेटिंग वाले लेख की कुछ औसत रेटिंग है। अब मैं यह साबित करूंगा कि यह 1-k / sqrt (n) (रेटिंग के विश्वसनीय भाग का अनुमान) और k / sqrt (n) - (लेख रेटिंग का अविश्वसनीय हिस्सा) के गुणांक वाले सभी लेखों की औसत रेटिंग के साथ औसत लेख रेटिंग का अंकगणितीय औसत है

छवि

भारित औसत मूल्य हमेशा तत्वों के न्यूनतम और अधिकतम मूल्यों के बीच होता है। यानी अंतिम रेटिंग हमेशा आवश्यक सीमा में होगी (उदाहरण के लिए, 5 सितारों के लिए 1 से 5 तक)। यह हमेशा "सरल रेटिंग" और औसत लेख रेटिंग के बीच होता है।

हमारा सूत्र n = 0 पर अनिश्चित है और हम इसके मूल्य के लिए लेखों की औसत रेटिंग लेंगे। नतीजतन, सूत्र फार्म ले जाएगा:

छवि

यदि यह लेख समझने में काफी सरल है, तो मैं इसे जारी रखूंगा और बात करूंगा कि मानक विचलन पर विचार करते हुए रेटिंग में सुधार कैसे करें और "मुझे पसंद है" शैली में रेटिंग के बारे में और जब कांच पर सूत्र अभी भी लागू है।

पीएस अगर किसी के पास कई हजार वोटों के साथ आधार है। और आवाज़ों को अलग से याद किया जाता है। यह साझा करने के लिए एक बहुत बड़ा अनुरोध है। कई डेटाबेस संख्यात्मक पूर्वानुमान संकेतक प्रदान करेंगे।

अगली कड़ी में पढ़िए

Source: https://habr.com/ru/post/In150808/


All Articles