एयरबीएनबी में ए / बी टेस्ट त्रुटियां


आज, एयरबीएनबी के पास एक बहुत ही दिलचस्प पोस्ट है कि वे ए / बी परीक्षण कैसे करते हैं। मुझे ऐसा लगा कि इस लेख का अनुवाद ख़बरोझीतेली के लिए हितकारी होगा, क्योंकि कई लोग अपनी परियोजनाएँ बनाते हैं, और एयरबीएनबी विश्लेषण के तरीके अधिक से अधिक उपयोगी हो सकते हैं, कम से कम वे आपको यह सोचेंगे कि आपके उत्पाद के मीट्रिक का परीक्षण करना अच्छा होगा।

Airbnb एक ऑनलाइन प्लेटफ़ॉर्म है, जहां लोग किराये की पेशकश और उन लोगों के अनुरोधों को पूरा करते हैं जो एक यात्रा पर रहने के लिए देख रहे हैं। हम नियंत्रित प्रयोग करते हैं जो हमें एक उत्पाद विकसित करते समय निर्णय लेने की अनुमति देते हैं, डिजाइन से एल्गोरिदम के निर्माण तक। उपयोगकर्ता-मित्रता बनाने में यह बहुत महत्वपूर्ण है।

प्रयोगों के संचालन के सिद्धांत सरल हैं, लेकिन अक्सर अप्रत्याशित नुकसान की खोज की ओर ले जाते हैं। कभी-कभी प्रयोग बहुत तेजी से बंद हो जाते हैं। अन्य जो किसी कारण से नियमित ट्रेडिंग प्लेटफॉर्म पर काम नहीं करते हैं, वे एक विशेष प्रकार के एयरबीएनबी पर काम करना शुरू करते हैं। हम आशा करते हैं कि हमारे परिणाम किसी को नुकसान से बचने में मदद करेंगे और इससे आप अपनी परियोजनाओं में बेहतर डिजाइन, बेहतर प्रबंधन और अधिक प्रभावी प्रयोग कर सकेंगे।

प्रयोग क्यों?


उपयोगकर्ता के अनुकूल इंटरफेस बनाने के लिए प्रयोग एक आसान तरीका है। यह स्पष्ट रूप से बताना मुश्किल है कि आप स्पष्ट भाषा में क्या कर रहे हैं और देखें कि पहले चित्रण में क्या होता है:


चित्रण १

बाहरी दुनिया उत्पाद को बहुत बदल देती है। उपयोगकर्ता सप्ताह, सीजन, मौसम (हमारी सेवा के बारे में, या किसी अन्य पर्यटन परियोजना के बारे में) के आधार पर अलग-अलग व्यवहार कर सकते हैं, या वे विज्ञापन के माध्यम से या संगठनात्मक रूप से सेवा के बारे में सीखते हैं। नियंत्रित प्रयोगों ने उपरोक्त बाह्य कारकों को नियंत्रित करते हुए उत्पाद परिवर्तन पर प्रभाव को अलग किया। चित्रा 2 में, आप एक नई सुविधा का उदाहरण देख सकते हैं जिसे हमने परीक्षण किया था, लेकिन जिसे छोड़ दिया गया था। हमने सोचा था कि हम एक मूल्य चुनने का एक नया तरीका पेश करेंगे जो उपयोगकर्ता के लिए सुखद होगा, लेकिन रूपांतरण में कमी आई, इसलिए हमने इसे छोड़ दिया।


चित्र 2 - एक नई सुविधा का एक उदाहरण जिसका हमने परीक्षण किया, लेकिन इनकार कर दिया

जब आप इस तरह एकल परिवर्तनों का परीक्षण करते हैं, तो आमतौर पर कार्यप्रणाली को ए / बी परीक्षण या विभाजन परीक्षण कहा जाता है। इस पोस्ट में ए / बी परीक्षणों का उपयोग करने के बारे में बुनियादी जानकारी नहीं है। कई बड़ी कंपनियां हैं जहां आप समान सेवाएं पा सकते हैं। उदाहरण के लिए, Gertrude , Etsy's फ़ीचर , और फेसबुक का PlanOut ,

AirBnb में परीक्षण


AirBnB में, हमने अपना स्वयं का ए / बी परीक्षण ढांचा बनाया, जिसमें प्रयोगों को चलाना संभव है। हमारे व्यवसाय में कई विशेष विशेषताएं हैं जो नियमित रूप से बटन रंग परिवर्तनों की तुलना में अधिक अच्छी तरह से जांच की जाती हैं और यही कारण है कि हमने अपना ढांचा बनाया।

सबसे पहले, उपयोगकर्ता अधिकृत होने या अधिकृत न होने पर साइट ब्राउज़ कर सकते हैं, जिससे परीक्षण काफी कठिन हो जाता है। लोग अक्सर बुकिंग के बीच उपकरणों (वेब ​​और मोबाइल के बीच) पर स्विच करते हैं। इसके अलावा, आरक्षण में कई दिन लग सकते हैं, और इसलिए हमें परिणामों की प्रतीक्षा करनी चाहिए। नतीजतन, घर के मालिकों से आवेदन और त्वरित प्रतिक्रियाएं कारक हैं जिन्हें हम भी नियंत्रित करना चाहते हैं।

बुकिंग करते समय कई बदलाव होते हैं। सबसे पहले, आगंतुक खोज का उपयोग करता है। फिर मकान मालिक से संपर्क करें। फिर मकान मालिक आवेदन की पुष्टि करता है और फिर अतिथि आरक्षण करता है। इसके अलावा, हमारे पास भिन्नताएं हैं जो अन्य तरीकों से भी आरक्षण का कारण बन सकती हैं - अतिथि तुरंत मेजबान से संपर्क किए बिना बुकिंग करेगा या तुरंत आरक्षण का अनुरोध कर सकता है। इन चार को चित्रा 3 में नेत्रहीन रूप से दिखाया गया है। हमने इन चरणों से गुजरने की प्रक्रिया और खोज और बुकिंग के बीच समग्र रूपांतरण को जोड़ा, जो हमारे मुख्य संकेतक हैं।


चित्र 3 - उदाहरण प्रयोग

प्रयोग करने में कितना समय लगता है


ऑनलाइन प्रयोगों में भ्रम का सबसे बड़ा स्रोत यह है कि आप यह नहीं जानते कि परिणाम प्राप्त करने के लिए आपको कितने समय तक एक प्रयोग करना है। समस्या यह है कि जब आप किसी प्रयोग को रोकने के लिए कसौटी के रूप में पी-मान का उपयोग करते हैं और इन परिणामों पर भरोसा करते हैं। यदि आप परीक्षण और पी-मूल्य के परिणामों की निगरानी करना जारी रखते हैं, तो आपको प्रभाव देखने की संभावना है। एक और आम गलती यह है कि प्रभाव दिखाई देने से पहले ही प्रयोग बंद कर देना चाहिए।

यहां हमारे प्रयोगों का एक उदाहरण है जिसे हमने लॉन्च किया है। हमने खोज पृष्ठ पर फ़िल्टर में भाग लेने वाले मूल्य का अधिकतम मूल्य परीक्षण किया, इसे $ 300 से $ 1000 में बदल दिया:


चित्रा 4 - एक फिल्टर में मूल्य परीक्षण का उदाहरण

चित्रा 5 में, हम एक समय परीक्षण दिखाते हैं। ऊपरी ग्राफ़ उपचार प्रभाव दिखाता है , और निचला ग्राफ़ समय पर पी-मूल्य की निर्भरता दिखाता है। जैसा कि आप देख सकते हैं, पी-मान 7 दिनों के बाद 0.05 से अधिक है, जिसमें प्रभाव मूल्य 4% है। यदि हम वहां प्रयोग बंद कर देते हैं, तो हमें बुकिंग के दौरान मिलने वाले महत्वपूर्ण परिणाम नहीं मिले। हमने प्रयोग जारी रखा और उस बिंदु पर पहुँच गए जहाँ प्रयोग निष्प्रभावी हो गया। अंतिम प्रभाव शून्य पी-मूल्य के बराबर था, यह दर्शाता है कि केवल शोर ही बना रहा।


चित्रा 5 - समय पर प्रयोग फिल्टर की निर्भरता का परिणाम है

जब पी-मान ०.०५ था तो हमने प्रयोग बंद क्यों नहीं किया? यह पता चला है कि पारंपरिक प्रणालियों में ऐसा नहीं होता है। इसके कई कारण हैं। उपयोगकर्ता अक्सर एक आदेश पर निर्णय लेने के लिए लंबा समय लेते हैं और शुरुआती आदेश बहुत अधिक प्रयोग की शुरुआत को प्रभावित करते हैं।

सही परिणाम प्राप्त करने के लिए, आपको पी-मान की गणना करने के लिए हर बार एक सांख्यिकीय परीक्षण करना होगा, और जितना अधिक आप इसे करेंगे, उतना ही यह एक प्रभाव प्राप्त करने की संभावना है।

कृपया ध्यान दें कि साइट के साथ मिलकर काम करने वाले लोग यह देख सकते हैं कि अधिकतम मूल्य मूल्य के लिए परीक्षण लॉन्च के दौरान, प्रभाव तटस्थ था। हमने पाया कि कुछ उपयोगकर्ता जो महंगे घरों को बुक करते हैं, वे इस मीट्रिक को बहुत प्रभावित नहीं करते हैं, क्योंकि वे जल्दी से बुक करते हैं।

नकारात्मक परिवर्तनों को रोकने के लिए प्रयोग कितने समय तक चलना चाहिए? सर्वोत्तम अभ्यास न्यूनतम प्रभावों के साथ प्रयोगों को चलाने के लिए है जो आपको प्रभाव के आकार की गणना करने की अनुमति देते हैं।

एक ऐसा क्षण होता है जब कोई प्रयोग सफलता या असफलता की ओर ले जाता है, वह भी तब जब समय अभी तक नहीं आया है। मूल्य फ़िल्टरिंग के मामले में, हमने जो उदाहरण दिखाया, वह पहली उपलब्धि थी, लेकिन ग्राफ़ ने इसे स्पष्ट रूप से नहीं दिखाया क्योंकि घटता अभिसरण नहीं करता था। हमने इस बिंदु को बहुत उपयोगी पाया जब परिणाम पूरी तरह से स्थिर नहीं हो सकते हैं। यह महत्वपूर्ण मेट्रिक्स के अनुसंधान और विकास के लिए महत्वपूर्ण है, इसलिए पी-वैल्यू के साथ एकल परिणाम पर विचार करें।

हम इस उदाहरण का उपयोग आगे समझने के लिए कर सकते हैं कि प्रयोग कब बंद करना है। यदि आप एक ही समय में कई प्रयोग कर रहे हैं तो यह उपयोगी हो सकता है। अंतर्ज्ञान आपको बताता है कि आपको किसी भी पहले परिणाम के बारे में अविश्वास होना चाहिए। इसलिए, जब शुरुआत में परिणाम बहुत कम होते हैं - इसका कोई मतलब नहीं है।


चित्र 6

यह ध्यान दिया जाना चाहिए कि यह वक्र आंशिक रूप से हमारे सिस्टम का एक पैरामीटर है, जिसे हम प्रयोगों में उपयोग करते हैं। आपकी परियोजना के लिए मूल्य होंगे।

दूसरा जाल एक सामान्य संदर्भ में परिणामों का विश्लेषण है। मूल रूप से, एक प्रयोग की सफलता का आकलन करने का अभ्यास एकल मीट्रिक पर आधारित है। हालाँकि, इस वजह से, आप एक टन मूल्यवान जानकारी याद कर सकते हैं।

हम एक उदाहरण देते हैं। पिछले साल हमने अपने खोज पृष्ठ को फिर से डिज़ाइन करने में खर्च किया। खोज Airbnb का एक मूलभूत घटक है। यह हमारे उत्पाद का मुख्य इंटरफ़ेस है और हमारी साइट के साथ उपयोगकर्ताओं को संलग्न करने का सबसे सीधा तरीका है। इसलिए, इसे सही बनाना बहुत महत्वपूर्ण है। चित्र 7 में, आप परिवर्तनों से पहले और बाद में पृष्ठ देख सकते हैं। नए डिज़ाइन में एक बड़ा छवि आकार होता है, एक बड़ा मानचित्र जो दिखाता है कि ऑब्जेक्ट कहाँ स्थित हैं। आप किसी अन्य पोस्ट में डिज़ाइन परिवर्तनों के बारे में पढ़ सकते हैं।


चित्रण ration

हमने इस परियोजना पर बहुत काम किया और हमने सोचा और डिजाइन को यथासंभव बेहतर बनाने की कोशिश की, जिसके बाद हम एक प्रयोग करके अपने डिजाइन का मूल्यांकन करना चाहते थे। डिजाइन को लॉन्च करने और इसे तुरंत सभी को दिखाने के लिए एक शानदार प्रलोभन था ताकि विपणन अवसर को याद न किया जा सके। हालांकि, अपने आप को ब्रेस करते हुए, हमने पहले नए डिजाइन का परीक्षण किया।

ऊपर वर्णित पद्धति के अनुसार पर्याप्त समय की प्रतीक्षा करने के बाद, हमें परिणाम मिले। वैश्विक मीट्रिक परिवर्तन छोटे थे और एक पी-मूल्य संकेतित शून्य प्रभाव था। हालांकि, हमने सभी कारणों और प्रभावों को समझने के लिए परिणामों को गहराई से देखने का निर्णय लिया। हमने पाया कि इंटरनेट एक्सप्लोरर के अपवाद के साथ, नया डिजाइन ज्यादातर मामलों में बेहतर था। तब हमने फैसला किया कि नया डिज़ाइन इस ब्राउज़र के पुराने संस्करणों में क्लिक करने की क्षमता को तोड़ता है, जिसने परिणामों को महत्वपूर्ण रूप से प्रभावित किया है। जब हमने यह तय किया, तो IE ने 2% वृद्धि दिखाते हुए, अन्य ब्राउज़रों के करीब परिणाम दिखाना शुरू कर दिया।


चित्र 8

यह हमें IE में परीक्षण करने के लिए अधिक चौकस रहने के लिए सिखाया। यह उदाहरण अच्छी तरह से दिखाता है कि आपको परीक्षण के संदर्भ को समझने की आवश्यकता है। आप ब्राउज़र संस्करण, देश और उपयोगकर्ता प्रकार के समान कई कारणों से निम्न परिणाम प्राप्त कर सकते हैं। परम्परागत चौखटे बस कुछ बारीकियों को प्रतिबिंबित नहीं कर सकते हैं जिन्हें आप मैन्युअल रूप से खोज कर सकते हैं। आप एक ही परीक्षण को कई बार चला सकते हैं, लेकिन अंत में, एक छोटी सी चीज ढूंढें जो एक महत्वपूर्ण प्रभाव पैदा करेगा। इसका कारण यह हो सकता है कि आप एक ही बार में कई परीक्षण चलाते हैं, यह मानते हुए कि वे सभी स्वतंत्र रूप से काम करते हैं, लेकिन ऐसा नहीं है। इसे प्राप्त करने का एक तरीका पी-मूल्य को एक स्तर तक कम करना है जहां आप तय करते हैं कि प्रभाव वास्तविक है। इसके बारे में यहाँ और पढ़ें।

सिस्टम को काम करना चाहिए


तीसरी और अंतिम गड़बड़ी आज यह धारणा है कि प्रणाली काम कर रही है। आप सोच सकते हैं कि आपका सिस्टम काम कर रहा है और प्रयोग गुजर रहे हैं। हालाँकि, सिस्टम वास्तविकता को प्रतिबिंबित नहीं कर सकता है। यह तब हो सकता है जब ढांचा क्षतिग्रस्त हो जाता है या आप इसका गलत तरीके से उपयोग कर रहे हैं। सिस्टम का मूल्यांकन करने और आपकी समझ का एक तरीका यह है कि परिकल्पना तैयार करना और उनका परीक्षण करना।


चित्र 9

परिणामों को देखने का एक और तरीका जो सच होने के लिए बहुत अच्छा लग सकता है। जब आप इन के समान परिणाम का अध्ययन करते हैं, तो उन्हें सच मानने से पहले उनका सावधानीपूर्वक अध्ययन करना अच्छा होता है।

सबसे सरल उदाहरण है जब उपचार नियंत्रण मूल्य के बराबर है। इसे ए / ए या डमी प्रयोग कहा जाता है। एक आदर्श दुनिया में, सिस्टम तटस्थ परिणाम लौटाएगा। लेकिन आपका सिस्टम क्या लौटाता है? हमने इन (चित्रा 9) के समान कई प्रयोग किए हैं और परिणामों के साथ मान्यताओं की तुलना करते हैं। एक मामले में, हमने डमी प्रयोग शुरू किए।

आप देख सकते हैं कि प्रयोगों में जहां समान आकारों के साथ नियंत्रित और उपचार समूह हैं, परिणाम इस तरह दिखते हैं।

चित्र 10

निष्कर्ष


किसी उत्पाद को विकसित करते समय निर्णय लेने के लिए नियंत्रित प्रयोग एक अच्छा तरीका है। उम्मीद है, इस पोस्ट में दिखाए गए ट्यूटोरियल ए / बी परीक्षण के दौरान की गई कुछ गलतियों को रोकने में मदद करेंगे।

सबसे पहले, यह निर्धारित करने का सबसे अच्छा तरीका है कि निष्कर्ष निकालने के लिए एक प्रयोग में कितना समय लगना चाहिए। यदि सिस्टम आपको शुरुआती परिणाम देता है, तो आप एक लक्स मूल्यांकन करना शुरू कर सकते हैं या रुझान को एकाग्र करना चाहिए। आपको इस परिदृश्य में रूढ़िवादी होने की आवश्यकता है।

उनके संदर्भ में परिणामों को देखना महत्वपूर्ण है। उन्हें सार्थक समूहों को सौंपें और उन्हें गहराई से समझने की कोशिश करें। मूल रूप से, प्रयोग एक उत्पाद को बेहतर बनाने के बजाय, एक उत्पाद को आक्रामक रूप से अनुकूलित करने की शुरुआत करने के बारे में एक अच्छी चर्चा हो सकती है। अनुकूलन असंभव नहीं है, लेकिन अक्सर आपको एक साहसी आवेग द्वारा निर्देशित नहीं किया जाना चाहिए। उत्पाद पर ध्यान केंद्रित करके, आप चर्चा कर सकते हैं और सही निर्णय ले सकते हैं।

अंत में आपको अपने रिपोर्टिंग सिस्टम के साथ रहना होगा। अगर कुछ सही नहीं लगता है या सच होने के लिए बहुत अच्छा लगता है, तो इसका अध्ययन करें। ऐसा करने का सबसे आसान तरीका डमी परीक्षण चलाना है, क्योंकि सिस्टम कैसे व्यवहार करता है, इसका कोई भी ज्ञान परिणामों को समझने के लिए उपयोगी होगा। AirBnb में, हमें इसके कारण पर्याप्त बग मिले।

[ स्रोत ]

पुनश्च केवल एक सप्ताह में, SVOD सम्मेलन सिलिकॉन वैली में आयोजित किया जाएगा, जिसमें अभी भी वहां पहुंचने का अवसर है;)

Source: https://habr.com/ru/post/In224461/


All Articles