"दो या दो से अधिक शिक्षकों की समस्या।" पहले छूता है

पिछले दो लेखों में, मैंने एक समस्या को स्पर्शिक रूप से छुआ, जिसे मैंने "दो या दो से अधिक शिक्षकों" की समस्या कहा:

1. चेतना और अचेतन के कार्यात्मक अलगाव का एक मॉडल। परिचय
2. भूलने के प्रभाव के बिना चेतना या एएनएन की अभिव्यक्ति का एक मॉडल

अब मैं उसके साथ और विस्तार से बात करना चाहूंगा। यह कृत्रिम बुद्धि के क्षेत्र से एक जटिल और अभी भी मूल रूप से अनसुलझी सैद्धांतिक समस्या है। मैं इसे स्पष्ट रूप से तैयार नहीं कर सकता, न कि निर्णय लेने के लिए। लेकिन मैं लगातार उससे अलग-अलग कामों में मिलता रहता हूं, और मैं हर समय उसी से लड़ता रहता हूं। ये पिछले लेख यह समझने के संदर्भ में अपना महत्व दिखा सकते हैं कि चेतना क्या है। लेकिन यह अभी भी गीत है। और यहाँ मैं और अधिक तकनीकी रूप से बोलना चाहूंगा।

यहां मैं दिखाऊंगा कि 2006 के बाद मैंने पहली बार इस समस्या का सामना कैसे किया था, लेकिन अब आरएनए तह की जैव सूचना समस्या को हल करते समय ठीक यही समस्या स्पष्ट रूप से दिखाई देती है (मैंने इस बारे में लेखों की एक श्रृंखला भी लिखी है, जिनमें से अंतिम में सभी लिंक हैं )। इन कार्यों का बाहरी विवरण काफी अलग है, लेकिन यह सौंदर्य है - समस्या कार्य की परवाह किए बिना उत्पन्न होती है, और ऐसा लगता है कि एक महत्वपूर्ण पहलू है जिसे आपको बौद्धिक तरीकों की बात करते समय हल करने में सक्षम होना चाहिए।

एक समय था जब मैं सभ्यता के खेल का प्रशंसक था। मुझे कहना होगा कि इसके पहले संस्करण सबसे बुद्धिमान थे, और सभ्यता II के बाद के संस्करण में: टेस्ट ऑफ टाइम आप बिल्कुल भी नहीं खेल सकते - उन्होंने महत्वपूर्ण बौद्धिक भराई को बर्बाद कर दिया। इसलिए, यह बिल्कुल आश्चर्यजनक नहीं है कि नीचे मैं इस गेम का कंप्यूटर स्केच खेलने का प्रस्ताव दूंगा।

यह ध्यान रखना महत्वपूर्ण है कि समान परिदृश्य वाले टूर्नामेंट आयोजित किए जाते हैं, उदाहरण के लिए, आईसीएफपीसी 2012 क्राउडसोर्सिंग और न्यूरल नेटवर्क के साथ , सॉप्लेक्स गेम खेल रहा है। यह भी एक दिलचस्प काम है, लेकिन यह "दो या अधिक शिक्षकों" की समस्या को नहीं बढ़ाता है। इसलिए, इस समस्या को उत्पन्न होने पर समझना इस लेख का उद्देश्य है।

युपीडी। ऐसा लगता है कि पहला स्पर्श थोड़ा जटिल था। मैं आपको समझने के लिए तंत्रिका नेटवर्क पर सुदृढीकरण के साथ प्रारंभिक लेख प्रशिक्षण पढ़ने के लिए कहता हूं सिद्धांत



खेल के नियम

मॉडल पर्यावरण क्षेत्र का एक नक्शा है, जिसे विभिन्न प्रकारों के 276 वर्गों (भूखंडों) में विभाजित किया गया है - मैदानी, सादा, महासागर, नदी, आदि। (कुल 16 प्रजातियां)। फिगर 50 में, सिमुलेशन के दौरान पाठ्यक्रम। लाल वर्ग "सिटी सेंटर" है, पीला स्क्वायर "सेटलर" है, ग्रीन क्रॉस "निवासी" है



प्रत्येक प्रकार का क्षेत्र इस संसाधन को संसाधित करके प्राप्त किए जा सकने वाले संसाधनों की मात्रा से भिन्न होता है। तीन प्रकार के संसाधन हैं - भोजन, धातु, धन। तालिका सभी वर्गों और उनकी विशेषताओं को दिखाती है।



खेल एक बसने वाले से शुरू होता है जिसे मानचित्र पर यादृच्छिक स्थिति में रखा जाता है। भविष्य के शहर के लिए एक जगह चुनने के लिए बसने का कार्य, नक्शे पर क्षेत्र की खेती करने के लिए आवश्यक है। बसने वाले के लिए मानचित्र की दृश्यता 25 वर्ग (इसके चारों ओर 2 वर्गों की त्रिज्या) है।

अपनी पसंद बनाने के बाद, बसने वाला शहर बनाता है, और वह गायब हो जाता है - शहर के एक निवासी में बदल जाता है। शहर में 9 वर्गों (इसके चारों ओर 1 वर्ग का त्रिज्या) का क्षेत्र शामिल है, एक प्रसंस्करण स्थान चुनने की क्षमता है। शहर के केंद्र को हमेशा खेती योग्य माना जाता है। बाहरी क्षेत्र (8 वर्ग) निवासियों द्वारा संसाधित किए जा सकते हैं, प्रति निवासी एक वर्ग। जिस समय निवासी प्रकट होता है, उस समय का चुनाव सांख्यिकीय रूप से किया जाता है। इस प्रकार, निर्माण के तुरंत बाद, प्रसंस्करण के लिए जगह का चयन किया जाता है। फिर, जब शहर के गोदामों में एक निश्चित मात्रा में भोजन जमा होता है, तो शहर का निवासी दिखाई देता है (और कार्य प्रसंस्करण स्थान चुनना है), और जब धातु की एक निश्चित राशि जमा होती है, तो एक नया बसेरा दिखाई देता है (और कार्य एक नए शहर के लिए जगह चुनने के लिए है)।

एक नए निवासी की उपस्थिति के लिए आवश्यक भोजन की मात्रा शहर के आकार (इस शहर के निवासियों की संख्या) पर निर्भर करती है। एक निवासी के साथ आपको 20 इकाइयों की आवश्यकता होती है। भोजन, दो - 30 इकाइयों के साथ। आदि बसने के लिए आवश्यक धातु की मात्रा 40 इकाई है।

कार्य एक रणनीति चुनना है जिसमें आप 80 चालों में सबसे अधिक पैसा प्राप्त कर सकते हैं।

शिक्षक

शिक्षक प्रशिक्षण का उद्देश्य यह सुनिश्चित करना है कि एजेंट कम से कम किसी तरह पर्यावरण में तर्कसंगत व्यवहार कर सके। इस तरह के तर्कसंगत व्यवहार तब फायदेमंद हो सकते हैं जब संसाधनों को समान रूप से मानचित्र पर वितरित किया जाता है, साथ ही साथ प्रत्येक संसाधनों के लगभग समान महत्व के साथ। ऐसा इसलिए है क्योंकि शिक्षक विकल्प के भारित मूल्यांकन की विधि के अनुसार एजेंट को प्रत्येक 8 आंदोलनों का मूल्यांकन करने का निर्देश देता है।
अर्थात्, प्रत्येक संसाधन के लिए 8 विकल्पों में से, शहर के पूरे क्षेत्र में अभिव्यक्त किए गए संसाधनों का अधिकतम और न्यूनतम मूल्य है। सभी संसाधनों के मूल्यों को घटाया जाता है।
(Value_i - मिनट / अधिकतम) * 255, जहां मैक्सिमन इस संसाधन के 8 विकल्पों में से अधिकतम और न्यूनतम के बीच का अंतर है। प्राप्त मूल्य अनुमान हैं।

समस्या जस की तस है

एजेंट शिक्षक प्रशिक्षण समय के साथ बदल सकता है। लेकिन कैसे? किस पर आधारित है? वास्तव में, अगले गेम में 80 गेम जीतने की सलाह दी जाती है, अर्थात्। जब बड़ी मात्रा में धन प्राप्त होता है। लेकिन इसे कैसे ठीक करें? यहां समस्या यह आती है - 80 चालों के इस पूरे अनुक्रम का वर्णन कैसे किया जाए, सभी संभव राज्यों के साथ। और यह पता चला है कि यह संभव नहीं है, यह एक विचार के लिए बहुत बड़ा है। हां, और वास्तव में यह बहुत ही बेमानी है। यह पता चला है कि आपको जीतने के लिए कुछ सरल रणनीतियों की आवश्यकता है।

एक उदाहरण के लिए। सिद्धांत रूप में, यह कार्य गलत होता है ... यदि आप जानते हैं कि यह 80 चालों तक रहता है, यदि आप जानते हैं कि किस स्थिति में शहर में एक नया निवासी और एक निवासी दिखाई देता है, यदि आप जानते हैं कि किस प्रकार के क्षेत्र मौजूद हैं और उनमें से प्रत्येक में कितने संसाधन हैं, और सबसे महत्वपूर्ण बात, किस पैरामीटर से सफलता का मूल्यांकन किया जाता है। अन्य सभी अनिश्चितताओं के लिए, कार्य की गणना करना कठिन है, और कम से कम आप एक एल्गोरिथ्म लिख सकते हैं जो इसकी गणना करता है।

पतित मामले के लिए जब केवल दो प्रकार के प्रदेश होते हैं - महासागर (1/0/2) और स्टेपी (1/1/0) - रणनीति इस प्रकार है: यह शहर के लक्ष्य को निर्धारित करने के लिए समझ में आता है - एक बसने वाला (स्टेपी + स्टेप) पाने के लिए, केवल मध्य तक खेल वह 2 या अधिक बसने वाले प्रदान करने में सक्षम होगा। खेल के 25% के बाद, आपको एक मिश्रित रणनीति (स्टेपी + महासागर) का उपयोग करना चाहिए, और 50% पारित खेल के बाद, केवल सोने की मात्रा (शहर प्रकार महासागर + महासागर) बढ़ाएं। पतन इस तथ्य में निहित है कि शहर यहां नहीं बढ़ते हैं, क्योंकि भोजन में वृद्धि केवल 2 इकाइयां है, जो प्रति निवासी इसकी खपत के बराबर है (याद रखें कि शहर के केंद्र को एक निवासी के बिना संसाधित किया जाता है)। नतीजतन, हमें 484 इकाइयां मिलती हैं। सोना ... और कोई अन्य रणनीति दर में सुधार नहीं कर सकती है।

वास्तव में, इन सामरिक रणनीतियों में से प्रत्येक का एक अलग फिटनेस फ़ंक्शन है। इसलिए यह पता चला है कि शिक्षक से प्राप्त बुनियादी सामरिक रणनीति होने पर, आपको उन मापदंडों को खोजने की आवश्यकता है जो आपको एक विशिष्ट रणनीति बनाने की अनुमति देंगे। और पहले से ही इन रणनीतियों को बदलने के लिए खेल के दौरान।

सामान्य तौर पर, यह मुश्किल होता है। सरलीकृत करना यह समझना आवश्यक है कि कोई भी सफल रणनीति (हेयुरिस्टिक) एक फिटनेस फ़ंक्शन के अलावा और कुछ नहीं है। यानी यह अनिवार्य रूप से एक और "शिक्षक" है। लेकिन दो या दो से अधिक शिक्षकों के प्रशिक्षण की समस्या एक में दो उपयुक्त सामरिक रणनीतियों का समन्वय करना है।

मुझे नहीं पता कि मैं समस्या का स्पष्ट रूप से वर्णन करने में कितना कामयाब रहा ... लेकिन यह लिखें कि यह स्पष्ट नहीं है, किसी ऐसे व्यक्ति की मदद करें जो समस्याओं को हल करने में मदद करता है।

अगले भाग में मैं आरएनए को मोड़ने के कार्य में उसी समस्या का वर्णन करने की कोशिश करूंगा, जो अब "खिलौना समस्या" नहीं होगी। लेकिन विशुद्ध रूप से उद्देश्य अधिक कठिन होगा, लेकिन सामरिक रणनीतियों का बहुत ही रूप सरल होगा।

मेरा लक्ष्य इसे एक समझने योग्य गणितीय समस्या बनाना है, जिसे लागू समस्याओं के माध्यम से नहीं समझाया जाएगा - लेकिन किसी तरह यह अभी भी जटिल है। मदद की प्रतीक्षा में।

Source: https://habr.com/ru/post/In148809/


All Articles