समस्या का बयान
पिछले लेखों में, "सार्वभौमिक बुद्धिमत्ता के निर्माण के लिए दृष्टिकोण के बुनियादी ढांचे," भाग 1 (
http://habrahabr.ru/post/145309/ ) और भाग 2 (
http://habrahabr.ru/post/145467/ ), हम रूपरेखा करते हैं विभिन्न मौजूदा दृष्टिकोणों का वर्णन किया और एक सार्वभौमिक एआई को विकसित करते समय कुछ कार्यप्रणाली सिद्धांतों का पालन किया जाना चाहिए। लेख में "आदर्श छात्र, या मशीन सीखने में क्या चुप है" (
http://habrahabr.ru/post/148002/ ) इन सिद्धांतों का पालन करने की आवश्यकता (और, विशेष रूप से, सार्वभौमिकता बनाए रखने के लिए) मशीन सीखने के उदाहरण का उपयोग करके चर्चा की गई थी। यहां हम सामान्य रूप से सार्वभौमिक बुद्धि के एक सामान्य मॉडल का विश्लेषण करेंगे। यद्यपि यह मॉडल वास्तविक सार्वभौमिक एआई से बहुत दूर है, यह हमें अन्य दृष्टिकोणों की महत्वपूर्ण कमियों को समझने की अनुमति देता है।
आइए हम एक आदर्श एजेंट के रूप में आदर्श न्यूनतम बुद्धिमत्ता (आईएमआई) के मॉडल पर विचार करने की कोशिश करें, एक निश्चित दुनिया में अभिनय करते हुए, अपने उद्देश्य फ़ंक्शन (उपयोगिता फ़ंक्शन) को अधिकतम करने के लिए। यहां हम आवश्यक कंप्यूटिंग संसाधनों की पूरी तरह से उपेक्षा करेंगे, और यह देखने की कोशिश करेंगे कि क्या ऐसी स्थितियों में भी एक सार्वभौमिक AI का निर्माण संभव है। व्यावहारिक रूप से सामान्यता का कोई नुकसान नहीं होने के साथ, हम यह मान सकते हैं कि एजेंट, समय पर असतत बिंदुओं पर, प्राथमिक क्रियाओं और सेंसर रीडिंग का एक सीमित सेट उपलब्ध है। सेंसर के सेट में लक्ष्य फ़ंक्शन सहित बाहरी और आंतरिक दोनों शामिल हैं। AI के क्षेत्र में लगभग किसी भी निजी और सामान्य कार्य को "सेंसर", "प्रभावकार" और "लक्ष्य फ़ंक्शन" को चुनकर, इस रूप में दर्शाया जा सकता है (हालाँकि यह विकल्प हमेशा स्पष्ट और स्वाभाविक नहीं है)।
तो, एक रोबोट जो उत्पादन में एक समस्या को हल करता है, या एक ऐसा कार्यक्रम जो शतरंज खेलता है, काफी पारदर्शी रूप से इस रूप में प्रस्तुत किया जाता है। एक सामान्य बुद्धि (जैसे मनुष्य) के साथ एजेंटों के लिए, एक समान निष्कर्ष बनाना अधिक कठिन है। फिर भी, व्यक्ति "केवल" संवेदी जानकारी प्राप्त करता है और कुछ क्रियाएं करता है। इससे आगे कुछ भी उसके लिए वास्तव में दुर्गम नहीं है। क्या यह किसी उद्देश्य समारोह का अनुकूलन करता है? एक विकासवादी दृष्टिकोण से, हम कह सकते हैं कि हाँ: यह फिटनेस का एक कार्य है। व्यक्ति को सचेत रूप से ऐसा न करने दें (और फ़ंक्शन को स्वयं स्पष्ट रूप से परिभाषित नहीं किया गया है), लेकिन वे जीव जिनके कार्यों की पसंद इस फ़ंक्शन के अनुरूप नहीं है, वे केवल जीवित नहीं थे या संतानों को नहीं छोड़ते थे।
बेशक, आप यह भी कह सकते हैं कि आप गैर-बौद्धिक लोगों सहित कई अलग-अलग तरीकों से अस्तित्व को बढ़ा सकते हैं, उदाहरण के लिए, शरीर में सुधार, इसकी "भौतिक" विशेषताएं। कुछ प्रजातियां विकसित बुद्धि के उपयोग के बिना कई लाखों वर्षों तक सफलतापूर्वक जीवित रहती हैं, अर्थात्, उनकी फिटनेस फ़ंक्शन के काफी सफल अनुकूलन के लिए बुद्धिमत्ता बहुत आवश्यक नहीं है। यह न केवल फिटनेस फ़ंक्शन पर, बल्कि किसी अन्य उद्देश्य फ़ंक्शन पर भी लागू होता है: उदाहरण के लिए, कुछ वस्तुओं को पहचानने के लिए एक प्रणाली बनाते समय, आप संवेदी सूचना के प्रसंस्करण के लिए सरल गैर-विशिष्ट सेंसर और बुद्धिमान एल्गोरिदम का उपयोग कर सकते हैं, या आप जटिल विशेष सेंसर का उपयोग कर सकते हैं, जिससे आप पहचान का उपयोग कर सकते हैं। प्राथमिक एल्गोरिदम। इस प्रकार, खुफिया, हालांकि यह इस तरह के एक सूत्रीकरण (उद्देश्य समारोह का अनुकूलन) के विपरीत नहीं है, लेकिन इसे कम नहीं किया गया है। यह दृष्टिकोण कितना उचित है, इस बारे में बहस में देरी किए बिना, हम बस ध्यान देते हैं कि, फिर भी, एक बुद्धिमान एजेंट को कार्रवाई चुनने की आवश्यकता होती है, और पसंद के किसी विशिष्ट तरीके के लिए कोई उद्देश्य फ़ंक्शन चुन सकता है। इस अर्थ में, हम यह मान सकते हैं कि खुफिया कुछ फ़ंक्शन का अनुकूलन करता है जिसके लिए फिटनेस घटकों या एक विशेष मामले में से एक है। यहां सवाल यह नहीं है कि सिद्धांत में ऐसा प्रतिनिधित्व कितना स्वीकार्य है, लेकिन यह कितना सुविधाजनक है (और यह सवाल सार्वभौमिक बुद्धिमत्ता के संबंध में निष्क्रिय नहीं है)।
एक और संदेह हो सकता है कि सार्वभौमिक बुद्धिमत्ता के लिए सेंसर और प्रभावकारों की एक सीमित सूची को सेट करना एक अनुचित सीमा की तरह दिखता है। यहां तक कि एक व्यक्ति के लिए (जिसकी बुद्धि अभी भी पर्याप्त रूप से विशिष्ट है, और बिल्कुल सार्वभौमिक नहीं है), यह सीमा इतनी गंभीर नहीं है। एक आदमी अपने सेंसर और प्रभावकों के सेट का विस्तार करने के लिए बहुत व्यापक रूप से टूल का उपयोग करता है, जिसे वह आंशिक रूप से अपने शरीर के विस्तार के रूप में व्याख्या करता है। इसके अलावा, यहां तक कि मस्तिष्क के स्तर पर, एक और न्यूनाधिकता की जानकारी के प्रसंस्करण के लिए कॉर्टिकल ज़ोन का पुनर्रचना संभव है। हालाँकि, मस्तिष्क के "इनपुट" और "आउटपुट" की संख्या बिल्कुल नहीं बदलती है। सभी परिवर्तन प्रासंगिक जानकारी या कार्यों की संरचना या संदर्भ के कारण होते हैं, जो सार्वभौमिक एआई के लिए समस्या के बयान में निषिद्ध नहीं है। बेशक, एआई को सीधे तौर पर उपकरणों को जोड़ने की क्षमता के साथ एंडोर्स करना और नए तौर-तरीकों के प्रभावकारक उपयोगी हो सकते हैं, लेकिन यह शायद ही मौलिक है, कम से कम विश्लेषण के वर्तमान चरण के लिए।
एक और बिंदु यह है कि जब पूरी तरह से सन्निहित एआई पर विचार किया जाता है, तो दुनिया के साथ बातचीत केवल एजेंट के शरीर के "मानक इंटरफेस" तक सीमित नहीं हो सकती है - सेंसर, लक्ष्य फ़ंक्शन और प्रभावकार। बाहर से, बौद्धिक एजेंट कार्यक्रम पर एक मनमाना प्रभाव भी डाला जा सकता है। यह कभी-कभी एक आवश्यक बिंदु के रूप में देखा जाता है [रिंग और ओर्सो, 2011]। हालांकि, एक व्यक्ति के लिए, इस स्थिति का मतलब मस्तिष्क में एक सीधा हस्तक्षेप है, जिसमें आमतौर पर एक सूचना नहीं है, लेकिन एक भौतिक (या रासायनिक) चरित्र है, और मानव मन ऐसे हस्तक्षेपों के लिए बहुत कमजोर है। बेशक, आप एक सार्वभौमिक एआई बनाने का सवाल उठा सकते हैं जो इस तरह के प्रभावों से अधिक सुरक्षित होगा, लेकिन पूरे सवाल पर यह प्राथमिकता नहीं लगती है।
इस प्रकार, सबसे आम में से एक (हालांकि शायद सबसे सफल नहीं) सार्वभौमिक बुद्धिमत्ता के लिए समस्या का निम्नलिखित कथन है। एजेंट के लिए इनपुट पर, समय टी के प्रत्येक क्षण में, कुछ सेट ओ से संबंधित ओ
टी के मान, जिसमें एक निश्चित संरचना हो सकती है, स्पर्श इनपुट के माध्यम से भेजे जाते हैं; "बॉडी" के माध्यम से मध्यम से सुदृढीकरण आर
टी के स्केलर मान प्राप्त होते हैं, जो किसी दिए गए रेंज आर = (आर
मिन , आर
मैक्स ) के होते हैं। संक्षिप्तता के लिए, हम जोड़ी (o
t , r
t ) x
t , x
t = X = O × R को दर्शाएंगे। इसके अलावा, एजेंट y
t (कुछ सेट Y से संबंधित) क्रिया करता है ताकि भविष्य में उद्देश्य फ़ंक्शन के कुल मूल्य को अधिकतम किया जा सके।

जहां k समय का वर्तमान बिंदु है। ध्यान दें कि यहां हम संकेतन का उपयोग करेंगे, मुख्य रूप से [हटर, 2005] से उधार लिया गया है, क्योंकि इस पेपर में प्रस्तुत सार्वभौमिक एआई का मॉडल सबसे व्यापक रूप से जाना जाता है और इसे वास्तविक मजबूत एआई के लिए एक शून्य सन्निकटन माना जा सकता है।
इस सूत्रीकरण (1) में, समस्या स्पष्ट रूप से सही ढंग से सामने नहीं आती है: एजेंट को t> k के लिए r
t के मान को अधिकतम करने की आवश्यकता होती है, जिसे समस्या की स्थिति में नहीं कहा जाता है। दूसरे शब्दों में, दुनिया के बारे में कम से कम कुछ मान्यताओं को पेश करना आवश्यक है जो हमें पिछले मूल्यों ओ
टी , आर
टी , वाई
टी और उनके भविष्य के मूल्यों के बीच संबंध स्थापित करने की अनुमति देगा।
प्रसिद्ध कम्प्यूटेशनल दुनिया का मामला
आइए सबसे पहले जाने-माने ट्यूरिंग मशीन (एक सार्वभौमिक ट्यूरिंग मशीन के लिए एल्गोरिथ्म या प्रोग्राम) q 'द्वारा वर्णित एक माध्यम के सबसे सरल मामले पर विचार करें, जिसका इनपुट क्षण में k, एजेंट y
1 , ..., y
k , और आउटपुट का मान o
k और r
k है । एजेंट स्वयं भी कुछ प्रोग्राम p 'द्वारा नियंत्रित होता है, जिसका इनपुट o
1 r
1 , ... o
k - 1 r
k - 1 , i.e है। x
1 , ... x
k - 1 , और आउटपुट y
k का मान है।
संक्षिप्तता के लिए, प्रपत्र y
m ... y
n का एक क्रम y
m: n द्वारा निरूपित किया जाएगा, और m = 1 के लिए हम y
orn या y
<n + 1 लिखेंगे । सेट Y से वस्तुओं से बने दृश्यों के सेट को निरूपित करने के लिए, हम पारंपरिक अंकन Y * का उपयोग करेंगे। तब प्रोग्राम q 'और p' संबंधित mappings को परिभाषित करते हैं q and: Y * → X और p ′: X * → Y, साथ x
k = q '(y )
k ) और y
k = p' (x
<k )। हम इसी कंपोनेंट्स x
k के लिए o
k = q
o '(y
andk ) और r
k = q
r ' (y
correspondingk ) भी
लिखेंगे । यह माना जाता है कि प्रत्येक समय कदम पर, कार्यक्रमों को बारी-बारी से शुरू किया जाता है: पी 'पहले लॉन्च किया जाता है, और फिर क्यू', और समय के शुरुआती समय में, लाइन एक्स
<1 खाली है। पर्यावरण और एजेंट के बीच कोई मौलिक विषमता नहीं है (समय के शुरुआती क्षण को छोड़कर), चूंकि पी 'और क्यू' की शुरुआत लगातार बारी-बारी से हो रही है, और दो को एक घड़ी चक्र में शुरू करना सशर्त है। यहाँ, निश्चित रूप से, गणना समय p 'और q' पर ध्यान नहीं दिया जाता है, लेकिन अन्यथा यह सेटिंग काफी स्वाभाविक लगती है। इस बात पर जोर दिया जाना चाहिए कि यहां मूल रूप से "वास्तविक समय" नहीं है: ये कार्यक्रम हर समय काम नहीं करते हैं, लेकिन प्रत्येक उपाय के लिए फिर से बुलाए जाते हैं। फिर दुनिया के साथ एजेंट की बातचीत के वर्तमान परिणाम की गणना लूप में की जा सकती है:
t से 0 से k: y
t = p '(x
<t ), x
t = q' (y )
t )।
विषमता से छुटकारा पाने के लिए (या बल्कि, आधे चक्रों से), हम x
t को q '(y
<t ) मान सकते हैं। एक औपचारिक दृष्टिकोण से, यह एक और समस्या का सूत्रीकरण होगा। तो, x
t = q '(y
ist ) के साथ मूल सेटिंग शतरंज के खेल का वर्णन करने के लिए उपयुक्त है, लेकिन खेल में "रॉक-पेपर-कैंची" नहीं है, जबकि x
t = q' (y
<t ) वाला संस्करण इसके विपरीत है । हालांकि, चूंकि ये दोनों विकल्प वास्तविक समय में q 'की गणना करने की आवश्यकता को ध्यान में नहीं रखते हैं, जिसके परिचय के साथ उनके बीच के अंतर को समाप्त कर दिया जाएगा, इस स्तर पर यह लगभग कोई अंतर नहीं रखता है जो कृत्रिम मामलों को छोड़कर उपयोग करने के लिए है जैसे कि खेल का उल्लेख किया गया है, जिनमें से नियम अनुक्रम के विशिष्ट संगठन का निर्धारण करते हैं। एजेंट और पर्यावरण की "चाल" (यह भी संस्करण y
t = p '(x (
t ), x
t = q' (y )
t ) की
गलतता को ध्यान देने योग्य है)। स्वाभाविक रूप से, "रॉक-पेपर-कैंची" के एक वास्तविक गेम में चालों की पूर्ण समानता नहीं है, और क्या यह प्राथमिक क्रियाओं के स्तर पर है व्यावहारिक रूप से महत्वपूर्ण नहीं है (यहां हम वास्तव में काम करने वाले रोबोट को याद कर सकते हैं जो पसंद को पहचानकर किसी व्यक्ति से इस गेम को जीतता है। अपनी पसंद का संकेत देने वाला व्यक्ति)। इसके अलावा, शतरंज के एक वास्तविक खेल में, चाल का क्रम "शारीरिक रूप से" आसानी से उल्लंघन हो सकता है।
सुविधा के लिए, हम p और q प्रोग्राम भी शुरू करते हैं, जैसे कि x
1: k = q (y
wek ) और y
1: k = p (x
<k ), p एक ऐसा प्रोग्राम है, जो न केवल वर्तमान क्रियाओं का चयन करता है, बल्कि रिटर्न भी उनकी पूरी कहानी। समकक्ष कार्यक्रम p और p '(q और q') एक दूसरे से आसानी से प्राप्त किए जा सकते हैं, इसलिए यहां उनका परिचय सुविधा के मामले से ज्यादा कुछ नहीं है। चूँकि x और y की उत्पन्न लाइनें कॉल q (y (
k ) = q (p (x
<k )) = q (p (q (y
<k ))), ठोस तत्व की पुनरावृत्ति के कारण p और q दोनों कार्यक्रमों पर निर्भर करती हैं। पी और क्यू द्वारा गठित इतिहास, उदाहरण के लिए, आर
टी pq , y
1: k pq , इत्यादि द्वारा निरूपित किया जाएगा।
चूँकि p और q निर्धारक हैं, हम उनके लिए भविष्य की गणना कर सकते हैं (वर्तमान क्षण k से कुछ क्षण m तक) कुल लाभ जो कि एजेंट को प्राप्त होगा:

अब हम सर्वोत्तम p * नीति और सर्वोत्तम वर्तमान क्रिया के निर्धारण के कार्य को सही ढंग से निर्धारित कर सकते हैं:

एक विशेष वातावरण q के लिए इष्टतम रणनीति p * खोजने की समस्या का समाधान फार्मूले (2) द्वारा एक प्राथमिकताओं का प्रदर्शन किया जा सकता है, हालांकि इस तरह के एक इष्टतम बुद्धिमान एजेंट का निर्माण बहुत nontrivial हो सकता है, क्योंकि कम्प्यूटेशनल जटिलता के कारणों के लिए इस सूत्र को सीधे अभ्यास में लागू करना असंभव है।
ऐसा लगता है कि विभिन्न वातावरणों के लिए पी * कार्यक्रम मौलिक रूप से अलग होना चाहिए। इस संबंध में, यह उल्लेखनीय है कि पर्यावरण q के मॉडल के अनुसार इष्टतम क्रियाएं चुनने के लिए एक सार्वभौमिक कार्यक्रम है। दरअसल, समीकरण (2) इस तरह के कार्यक्रम को परिभाषित करता है। लेकिन आप एक और सार्वभौमिक कार्यक्रम की पेशकश कर सकते हैं जो सीधे इष्टतम कार्यों का चयन करता है, और एक निजी इष्टतम कार्यक्रम की खोज के माध्यम से नहीं। इस तरह के कार्यक्रम को निम्नलिखित अभिव्यक्ति द्वारा परिभाषित किया गया है:

वास्तव में, यदि एक प्रसिद्ध पर्यावरणीय कार्यक्रम एक एजेंट के कार्यों की एक श्रृंखला को एक इनपुट के रूप में प्राप्त करता है, तो यह संभव है कि प्रोग्राम p की खोज न करें जो कि इष्टतम श्रृंखला उत्पन्न करता है, लेकिन स्वयं श्रृंखला के लिए, और इस तरह की खोज एक सार्वभौमिक कार्यक्रम होगी। चूंकि एजेंट प्रोग्राम स्वयं q प्रोग्राम पर निर्भर नहीं करता है, लेकिन इसे इनपुट के रूप में उपयोग करता है, यह सार्वभौमिक दिखता है, और ऐसा लगता है कि असीमित संसाधनों के साथ प्रत्यक्ष गणना को स्पष्ट रूप से q के अधिकतमकरण की ओर ले जाना चाहिए। हालांकि, आइए समस्या के बयान की पर्याप्तता पर चर्चा करें, जिसमें सार्वभौमिक बुद्धिमत्ता का एक मॉडल हो, कम से कम एक प्रसिद्ध पर्यावरण के लिए।
उद्देश्य समारोह को अधिकतम करने की समस्या के निर्माण की पर्याप्तता
यहां आने वाले स्पष्ट प्रश्नों में से एक समय अंतराल (या बल्कि, इसकी ऊपरी सीमा) का विकल्प है जिसके द्वारा योग करना है। समीकरणों (1) - (3) लिखते समय बाईपास किए गए इस प्रश्न का स्पष्ट उत्तर नहीं है और इसके लिए विश्लेषण की आवश्यकता है। आइए शतरंज की स्थिति के पारंपरिक उदाहरण को देखें।

यहां विचार यह है कि अश्वेतों के सफेद भाग खाने से नुकसान होगा। एक ड्रॉ सीमा में ही पहुंचता है। गणना की कोई अंतिम गहराई गणन एल्गोरिथ्म को "समझने" की अनुमति नहीं देगा कि एक बदमाश खाने के लिए स्थायी इनकार एक ड्रॉ के बराबर है। यह, हालांकि, एजेंट को इस स्थिति में पर्याप्त रूप से कार्य करने से नहीं रोकेगा: आखिरकार, खोज की पर्याप्त गहराई के साथ, सीमित संख्या में खाने से नुकसान होगा, इसलिए, किश्ती खाने का अनुमान किसी भी अन्य की तुलना में कम होगा (हालांकि एजेंट मनमाने ढंग से "समझ" नहीं पाएगा) लंबे समय तक न खाने वाला और आकर्षित)। इसके अलावा, एक व्यावहारिक अर्थ में, एक एजेंट हमेशा के लिए मौजूद नहीं हो सकता है, इसलिए एक असीम रूप से लंबा गेम एक अमूर्त से ज्यादा कुछ नहीं है। ब्रह्माण्ड के अस्तित्व का बहुत ही समय परिमित है, और एक यथार्थवादी स्थिति की कल्पना करना मुश्किल है जब मूर्त एजेंट के पास खोज की असीमित गहराई हो।
इसी समय, कुछ प्रतीकात्मक प्रतिनिधित्व के एक तत्व के रूप में अनन्तता की अवधारणा के साथ, ऐसा एजेंट भी काम करने में सक्षम होगा। और चूंकि एक व्यक्ति के प्रतीकात्मक अभ्यावेदन में संवेदक और मोटर कौशल में एक अर्थपूर्ण आधार होता है, अर्थात, वे बस x और y के संयोजन के कुछ प्रकार हैं, यह सिद्धांत रूप में उपलब्ध होना चाहिए (हालांकि स्पष्ट रूप से नहीं) प्रश्न में एजेंट के लिए। फिर भी, यह बहुत संभव है कि अनन्तता की अवधारणा का कुछ विशिष्ट अर्थ-आधारित आधार है, जो एक व्यक्ति के लिए अनंत (विशेष रूप से, चक्रीय) के बारे में तर्क देता है जो एक क्रूर बल एल्गोरिथ्म की तुलना में बहुत अधिक प्राकृतिक है। इसके अलावा, गैर-रोक प्रक्रियाएं संगणना की शास्त्रीय अवधारणा (सीमा में तथाकथित कम्प्यूटेबिलिटी) के विस्तार से संबंधित हैं, इसलिए, वे सार्वभौमिक बुद्धिमत्ता के सिद्धांत का एक महत्वपूर्ण घटक हो सकते हैं, जो उदाहरण के लिए, [श्मिटुबेर, 2003] में उल्लेखित है। हालांकि, हम केवल इस बात में रुचि रखते हैं कि क्या हमारा एजेंट पर्याप्त रूप से कार्य करेगा, और स्पष्ट रूप से कार्रवाई के अपर्याप्त विकल्प के कोई उदाहरण नहीं हैं।
सारांश समय सीमा के प्रश्न पर लौटते हुए, यह ध्यान देने योग्य है कि इस सीमा को सीमित करने की संभावना को बहुत ही अपनाने से इस सवाल का जवाब नहीं मिलता है कि इसे कैसे सीमित किया जाए। विशेष रूप से, इस सीमा को एजेंट के अपेक्षित जीवनकाल तक सीमित करने से अपर्याप्त (या बल्कि, लोगों के लिए अवांछनीय) व्यवहार होता है। उदाहरण के लिए, ऐसा एजेंट, अपने जीवन की कीमत पर, किसी को भी नहीं बचाएगा, और सामान्य रूप से "हमारे बाद कम से कम बाढ़" के सिद्धांत पर अनिवार्य रूप से कार्य करेगा। स्वाभाविक रूप से, एक मजबूत एआई बनाते समय, उपयुक्त रेंज के चयन की समस्या को हल करना आवश्यक होगा या, अधिक मोटे तौर पर, वांछित उद्देश्य फ़ंक्शन, जो न केवल एजेंट के व्यक्तिगत लाभ का मूल्यांकन करेगा। अन्यथा, एजेंट की मृत्यु के बाद के समय में इस फ़ंक्शन का अंकन हमेशा न्यूनतम मान देगा। लेकिन यह पता चला है कि उद्देश्य फ़ंक्शन को एजेंट की अनुपस्थिति में "अस्तित्व में" जारी रखना चाहिए।
एक न्यूनतम बौद्धिक एजेंट के उदाहरण से, उद्देश्य समारोह की स्थापना की कठिनाई विशेष रूप से स्पष्ट रूप से दिखाई देती है। ऐसा एजेंट खुद "कच्चे डेटा" द्वारा निर्देशित होता है और प्राथमिक क्रियाओं की एक श्रृंखला चुनता है। इसी समय, वह स्पष्ट रूप से किसी भी अवधारणा का उपयोग नहीं करता है, जो उसे व्यापक रूप से संपूर्ण खोज के कारण पर्याप्त रूप से कार्य करने से नहीं रोकता है। लेकिन हमें एक उद्देश्य फ़ंक्शन निर्धारित करने की आवश्यकता है, जो वास्तव में, सरल सेंसर की रीडिंग में व्यक्त नहीं किया गया है। इस तरह के एक फ़ंक्शन की गणना करने के लिए, एक अलग बुद्धि की आवश्यकता होती है, और सार्वभौमिक नहीं, लेकिन विशेष। वास्तव में, सरल दुनिया के मामले में, जैसे कि शतरंज, खेल के नियमों द्वारा परिभाषित एक वास्तविक उद्देश्य समारोह स्थापित करना काफी संभव है; लेकिन अगर हम वास्तविक दुनिया की कल्पना करते हैं, जिसके लिए हमारे पास एक सटीक भौतिक मॉडल है जो हमें भविष्य में किसी भी समय दुनिया की स्थिति का निर्धारण करने की अनुमति देता है, तो इस राज्य के बारे में जानकारी को उद्देश्य फ़ंक्शन के मूल्यों में, केवल एजेंट के अस्तित्व से कम से कम निर्धारित करना बहुत मुश्किल होगा।
यदि उद्देश्य फ़ंक्शन केवल साधारण सेंसर के रीडिंग द्वारा सीमित है, विशेष रूप से, दर्द और खुशी, तो स्वार्थी व्यवहार की अपेक्षा की जानी चाहिए। आप निश्चित रूप से, इस एजेंट को मजबूत और दंडित करके "शिक्षित" कर सकते हैं। जब तक एजेंट के पास लोगों या अन्य बौद्धिक एजेंटों द्वारा लगाए गए दंड को खत्म करने का साधन नहीं होगा, वह वांछित तरीके से कार्य करेगा। हालांकि, जैसे ही एक एजेंट खुद के लिए नकारात्मक परिणामों की अनुपस्थिति की भविष्यवाणी कर सकता है, वह अनैतिक रूप से कार्य करेगा। «» , , , «» , .
«» , , «» . , . . , , – , . «» , . (, , ) «» . ,
सुख इसलिए कि जानवर स्वतंत्र रूप से उन्हें सक्रिय कर सके। चूंकि उद्देश्य फ़ंक्शन शरीर की स्थिति की केवल वर्तमान गुणवत्ता को निर्धारित करता है, इसलिए इसका एक्सट्रपलेशन स्पष्ट रूप से मृत्यु के बारे में भविष्यवाणी नहीं कर सकता है। इलेक्ट्रोड की कार्रवाई वास्तविक राज्य के लिए अप्रासंगिक फ़ंक्शन के मूल्य को बढ़ाती है, और इसलिए जानवर का व्यवहार इष्टतम से बहुत दूर है। कुछ शर्तों के तहत, यह "सार्वभौमिक" कृत्रिम बुद्धिमत्ता का व्यवहार हो सकता है, जिसमें जन्मजात उद्देश्य फ़ंक्शन को अधिकतम करने का कार्य है।, [Ring and Orseau, 2011]. . , , ? , : . , , «» , , . , , . [Orseau and Ring, 2011], «» , . , , , , . , .
इस प्रकार, किसी दिए गए उद्देश्य फ़ंक्शन को अधिकतम करने के लिए मॉडल काफी सार्वभौमिक नहीं है; बल्कि, इसे सार्वभौमिक बुद्धिमत्ता का एक आदर्श माना जा सकता है, जिसका कार्य केवल एक निश्चित समय अंतराल पर इस अधिकतमकरण को करने तक सीमित है। लेकिन इसे समग्र रूप से बौद्धिक एजेंट का मॉडल नहीं माना जा सकता है, जिसमें से उद्देश्य फ़ंक्शन स्वयं एक हिस्सा है, और जिसका कार्यन्यूनतम, अस्तित्व में है। अंत में, हम रुचि रखते हैं, ज़ाहिर है, एक बुद्धिमान एजेंट के निर्माण में (और न केवल अस्तित्व में)। हालाँकि, फिलहाल हम खुद को केवल शुद्ध बुद्धि के मॉडल पर विचार करने के लिए सीमित रखेंगे।अपरिभाषित वातावरण
. , , . , , , . . , , , . , . , , , ( ) ? , , , . , , .
पर्यावरण के बारे में पूरी जानकारी की कमी का क्या मतलब है? इसका मतलब है कि हम q माध्यम के सटीक एल्गोरिदम को नहीं जानते हैं। लेकिन एजेंट पर्यावरण के बारे में क्या जानता है? एल्गोरिदम का एक निश्चित सेट होने दें, जिनमें से प्रत्येक सही हो सकता है (यह सेट एल्गोरिथम पूरा हो सकता है)। और एजेंट को एक प्राथमिकता संभावनाओं का वितरण दिया जाए μ (q)।. , . , : , .. , . , . , , , μ(q) «»; . . , «» – , , , , , , .. , -«», «» μ(q), .
μ(q), :

, , , [Hutter, 2005].

, . , , , p* . , , μ(q) . , μ(q) – .
, ( , ), – P(0)=P(1)=0.5. , . , . , : , , .
q, , μ(q)≠0? , . μ(q) . k:

C
k – ( k), μ
k (q). , , , , . p q - ? , . , , , . , , .
k:

, p*, (2) k=1. , : , μ(q) () , , p
1 * , (4), k >1. , , (4), , p
1 *जो k> 1 के लिए इष्टतम रहता है। ऐसा लग सकता है कि एक निश्चित विरोधाभास है। हालांकि, वह वास्तव में नहीं है। कई एल्गोरिदम हैं जो इतिहास के वर्तमान क्षण के लिए और दिए गए वितरण μ (q) के लिए भविष्य के सुदृढीकरण की गणितीय अपेक्षा का अधिकतम मूल्य देते हैं। उनमें से कौन सी (4) में argmax द्वारा दी गई है निर्दिष्ट नहीं है। और जब नया डेटा आता है तो यह एल्गोरिथ्म अच्छी तरह से अपनाया जा सकता है। हालांकि, सभी इष्टतम एल्गोरिदम के बीच, विशेष रूप से सार्वभौमिक एल्गोरिदम हैं, जो (4) के अनुसार अन्य इष्टतम एल्गोरिदम की खोज करते हैं।स्वाभाविक रूप से, इष्टतम कार्रवाई चुनने के लिए एक सार्वभौमिक एल्गोरिथ्म है, जो क्रियाओं को उत्पन्न करने के लिए एल्गोरिदम पर पुनरावृति नहीं करता है, लेकिन सीधे कार्रवाई की श्रृंखला:
, , ( ) k.
(4), (5). , , , , , .
समीकरण (4) और (5) समान समीकरणों के समान हैं [हटर, 2005]। यहां हम उन्हें स्पष्टीकरण के बिना देते हैं, हालांकि हम मानते हैं कि वे काफी सही नहीं हैं। तथ्य यह है कि, (4) के अनुसार, इष्टतम प्रोग्राम p k * का चयन करना भी असंभव है , ठीक उसी तरह जैसे कि प्राथमिकताओं के लिए असंभव था p * 1 । ये समीकरण सूचनाओं के जमा होते ही μ (q) के वितरण को बदलने की प्रक्रिया को ध्यान में नहीं रखते हैं। कार्रवाई की पसंद के आधार पर, वितरण μ (q) अपरिवर्तित या संकीर्ण रह सकता है। शोध व्यवहार का अर्थ है अनिश्चितता को कम करने वाली जानकारी प्राप्त करने के उद्देश्य से किए गए कार्यों का एक विकल्प। उम्मीद है, अनुसंधान व्यवहार एक एजेंट की विशेषता नहीं होगी (4) और (5) के अनुसार। लेकिन यहां हम [हटर, 2005] के अनुसार प्रस्तुति जारी रखते हैं।. , . , . , , . , , . , ( « »). , , , , ( , , , ). () , .
समीकरण (5) में, (3) की तुलना में, सभी दिए गए मीडिया मॉडल पर योग जोड़ा गया है, जो इष्टतम कार्रवाई को चुनने का कार्य कम्प्यूटेशनल रूप से और भी कठिन बना देता है, लेकिन एजेंट की सार्वभौमिकता के लिए यह आवश्यक है। विचार के इस स्तर पर, यह अधिक महत्वपूर्ण है कि वास्तविक दुनिया के लिए एक प्राथमिक वितरण अप्राप्य है।सार्वभौमिक भविष्यवाणी की समस्या
एक सार्वभौमिक बौद्धिक एजेंट के मॉडल का निर्माण कैसे करें यदि μ (q) नहीं दिया गया है? यह याद रखना चाहिए कि μ (q) का अर्थ सही नहीं है, लेकिन कुछ बेहतर (उपलब्ध प्राथमिकताओं की जानकारी को ध्यान में रखते हुए) वितरण। लेकिन वास्तव में, यह वितरण निर्माण के लिए बेहद समस्याग्रस्त है। प्राथमिकताओं की न्यूनतम जानकारी के साथ क्या वितरण लिया जाना चाहिए?
यह वितरण ξ करें। सार्वभौमिकता बनाए रखने के लिए, यह आवश्यक है कि किसी भी प्रोग्राम q, q (q) true 0 के लिए सत्य है, अर्थात, कोई भी मॉडल प्राथमिकता को अस्वीकार नहीं करता है। अधिकतम निष्पक्षता का मतलब यह होना चाहिए कि ξ (q) = const, लेकिन यह असंभव है अगर हम मान लें कि ξ (q) एक (सामान्यीकृत) प्रायिकता वितरण है। यहां तक कि अगर हम मानते हैं कि ξ (q) केवल वजन है जिसके साथ एक विशेष मॉडल को भविष्यवाणी में ध्यान में रखा जाता है, तो इस तरह के समाधान से अत्यधिक करीबी फिटिंग (पीछे हटने) का प्रभाव होगा, जो कि एल्गोरिदमिक रूप से अपूर्ण मॉडल रिक्त स्थान के मामले में भी अधिकतम संभावना विधि का उपयोग करते समय अभ्यास से अच्छी तरह से जाना जाता है। ।
सूचना के एल्गोरिथम सिद्धांत के ढांचे में एक पर्याप्त समाधान दिया गया है, जिसमें जानकारी की मात्रा संभावना द्वारा निर्धारित नहीं की जाती है, लेकिन संभावना जानकारी की मात्रा से निर्धारित होती है, जो कि ए.एन. कोलमोगोरोव का विशुद्ध रूप से दहनशील आधार होना चाहिए। परिणामस्वरूप, a (q) = 2
–l (q) को पेश किया जाता है, जहाँ l (q) q प्रोग्राम रिकॉर्ड में बाइनरी वर्णों की संख्या होती है। स्व-परिसीमन के साथ उपसर्ग कोड या अन्य कोड का उपयोग करते समय, सभी बिट स्ट्रिंग्स (प्रोग्राम) की कुल संभावना 2
-l (q) 1 के बराबर होती है।
यह परिभाषा बहुत ही उचित है: जानकारी और संभावना की मात्रा संकेतित अनुपात से संबंधित है, और इसके विवरण में बिट्स की संख्या के माध्यम से मॉडल में जानकारी की मात्रा निर्धारित करना स्वाभाविक है। बेशक, बाद में, शायद ही पूरी तरह से कड़ाई से उचित ठहराया जा सकता है; बल्कि, इस परिभाषा में एक स्वयंसिद्ध का चरित्र है, जो कि वास्तविकता के लिए अपनी पूर्ण पर्याप्तता साबित करता है। हम यहां रुक सकते हैं और बस μ (q) के बजाय ξ (q) का उपयोग कर सकते हैं, लेकिन यह स्पष्ट करना आवश्यक है कि सार्वभौमिक वितरण ξ (q) का महत्व (4) और (5) में इसके उपयोग से कहीं अधिक है।
मशीन लर्निंग, इंडक्शन और प्रेडिक्शन के क्षेत्र में, एक प्राथमिकताओं की समस्या मूलभूत है। इसकी अनदेखी या अधूरा समाधान रिट्रेनिंग की समस्या की ओर जाता है, जो कि सबसे कमजोर मशीन सीखने के तरीकों की विशेषता है, जिसमें अधिकांश प्रकार के कृत्रिम तंत्रिका नेटवर्क शामिल हैं। सांख्यिकीय दृष्टिकोण के ढांचे में, किसी समस्या को हल करने में एक प्राथमिकताओं को केवल दिए गए वर्ग की समस्याओं का एक नमूना द्वारा निर्धारित किया जा सकता है जिसे पहले से ही हल किया जाना चाहिए। लेकिन इस मामले में भी, किसी न किसी रूप में दिए गए एक पूर्व-संभाव्यता वितरण का अनुमान लगाने के लिए, स्वयं वितरण संभावनाओं के लिए एक प्राथमिकताओं की आवश्यकता होगी। यह एक दुष्चक्र है जिसमें से सांख्यिकीय विधियों द्वारा बाहर निकलना मूल रूप से असंभव है। नतीजतन, एक प्राथमिक वितरण (मेटा) मॉडल को परिभाषित करने के लिए heuristically डेवलपर द्वारा पेश किया जाता है।
सूचना के शास्त्रीय सिद्धांत में एक समान समस्या दिखाई देती है: इसमें, संदेश की जानकारी को संदेश स्रोत के ज्ञात (सांख्यिकीय) मॉडल के साथ इष्टतम कोड की लंबाई के रूप में पेश किया जाता है। ऐसी परिस्थितियों में, व्यक्तिगत संभावना या जानकारी की मात्रा को निर्धारित करना असंभव है, कहते हैं, अपने स्रोत के मॉडल की प्राथमिकताओं की अनिश्चितता के तहत एक द्विआधारी स्ट्रिंग में।
इस तरह की अनिश्चितता के साथ, सभी संभावित मॉडल (जो एल्गोरिदम का स्थान है) के स्थान में सूचना स्रोत के इष्टतम मॉडल की खोज करना आवश्यक हो जाता है। लेकिन अगर इष्टतम मॉडल का ज्ञान सबसे कुशल संपीड़न के लिए अनुमति देता है, तो इष्टतम कोडिंग समस्या के व्युत्क्रम को सबसे अच्छा मॉडल खोजने की अनुमति देनी चाहिए। दूसरे शब्दों में, अगर हमें सबसे अधिक कॉम्पैक्ट तरीके से एन्कोड किए गए डेटा को स्थानांतरित करने की आवश्यकता है, तो ऐसा करने का सार्वभौमिक तरीका इस डेटा को पुन: उत्पन्न करने वाले सबसे छोटे प्रोग्राम को स्थानांतरित करना है। इस कार्यक्रम की लंबाई इस डेटा में जानकारी की मात्रा होगी, या, अधिक सटीक रूप से, उनके कोलमोगोरोव (एल्गोरिथम) जटिलता, और इस कार्यक्रम की संभावना ξ (q) डेटा के लिए जिम्मेदार ठहराया जा सकता है। हालांकि, इस तथ्य को ध्यान में रखते हुए कि एक ही डेटा को विभिन्न कार्यक्रमों द्वारा उत्पन्न किया जा सकता है, इन सभी कार्यक्रमों की संभावनाओं के योग के रूप में संबंधित डेटा पंक्ति की एक प्राथमिकता (एल्गोरिथम) संभावना अधिक सही ढंग से परिभाषित की गई है। इस प्रकार, एल्गोरिथम जटिलता और एल्गोरिथम संभावना है:

जहां Λ खाली स्ट्रिंग है।
यह ध्यान देने योग्य है कि [हटर, 2005] और [हटर, 2007] में कार्यक्रमों की संभावना वितरण के लिए अंकन ((q) = 2
–l (q) और मनमानी तारों की एल्गोरिथम प्रायिकता के लिए P
ALP (x) मिश्रित हैं। हालांकि, हम अलग-अलग संकेतन का उपयोग करेंगे।
यह दृष्टिकोण हमें एक प्राथमिक संभावनाओं का एक बुनियादी वितरण शुरू करने की अनुमति देता है, जो सांख्यिकीय दृष्टिकोण में एक प्राथमिकताओं का अनुमान लगाने के दुष्चक्र को "तोड़" देता है: यदि हमारे पास सांख्यिकीय अनुमान के कुछ स्तर पर प्राथमिकताओं को दर्ज करने के लिए आवश्यक जानकारी नहीं है, तो हम सार्वभौमिक पुजारियों का उपयोग करते हैं। एल्गोरिथमिक संभावना के आधार पर, एक सार्वभौमिक भविष्यवाणी पद्धति का निर्माण किया जा सकता है [सोलोमनॉफ, 1986]। एल्गोरिदमिक संभावना को लिखने के लिए यह कुछ हद तक स्वतंत्र है कि मौजूदा लाइन x को लाइन x द्वारा जारी रखा जाएगा, जैसा कि

स्वतंत्रता इस तथ्य में निहित है कि भविष्यवाणी के मामले में, पी
एएलपी (एक्स) को इस संभावना के रूप में समझा जाना चाहिए कि कुछ प्रोग्राम बिल्कुल स्ट्रिंग एक्स उत्पन्न नहीं करेंगे, लेकिन कुछ स्ट्रिंग जिसके लिए एक्स एक उपसर्ग है। इसके अलावा, पी
एएलपी (xx ') xx के संघात के साथ शुरू होने वाले एक स्ट्रिंग को पैदा करने की संभावना है'।
यहां इस बात पर जोर देना महत्वपूर्ण है कि सांख्यिकीय संभावनाओं की समस्याओं को हल करने वाली सार्वभौमिक संभावनाओं को विशुद्ध रूप से नियतात्मक मॉडल के आधार पर पेश किया जाता है। इससे पता चलता है कि संभाव्य मॉडल की स्पष्ट अवहेलना एल्गोरिथम एआई की सार्वभौमिकता को कम नहीं करती है, जिसके निर्माण में संभावना की अवधारणा के साथ पूरी तरह से दूर करना संभव है।
फिर भी, यह अवधारणा बहुत उत्पादक है और कुछ जोखिम भरे कदमों से बचती है। उदाहरण के लिए, [हटर, 2005] में एक निराधार धारणा के साथ आ सकता है कि माध्यम के मॉडल में परिमित जटिलता है। यह पर्यावरण को सटीक अर्थों में निर्धारक बनाता है। लेकिन साथ ही, हमें इस बात की कोई गारंटी नहीं है कि संवेदी इतिहास x
1: k में असीमित वृद्धि के साथ
, निश्चित रूप से ऐसा क्षण आएगा कि इस इतिहास को पुन: पेश करने में सक्षम सबसे छोटे प्रोग्राम q की लंबाई बढ़ने के लिए बंद हो जाएगी। "सच्ची" यादृच्छिकता वाली प्रक्रिया को इस तथ्य की विशेषता है कि इसके द्वारा उत्पन्न आंकड़ों की जटिलता डेटा में तत्वों की संख्या में वृद्धि के साथ असीमित रूप से बढ़ती है। "व्यावहारिक" दृष्टिकोण से, हालांकि, यह इतना महत्वपूर्ण नहीं है कि "वास्तविक" यादृच्छिकता शारीरिक रूप से वास्तविक है या नहीं, क्योंकि माध्यम की जटिलता एजेंट द्वारा जमा की गई जानकारी की जटिलता से अधिक होगी, और कम से कम इसलिए कम से कम पर्याप्त कार्यक्रम क्यू की लंबाई के स्थिरीकरण का क्षण नहीं आएगा। और इस तथ्य को ध्यान में रखते हुए कि q * पर्यावरण के सटीक मॉडल में आवश्यक रूप से एजेंट की संवेदी जानकारी की मात्रा से अधिक की जटिलता होगी (अर्थात, ऐसा कोई क्षण नहीं होगा जब q * को फिर से संगठित किया जा सके) एल्गोरिथम AI मॉडल के विकास में महत्वपूर्ण हो सकता है।
यहां हम जानकारी और संभावनाओं के एल्गोरिथम सिद्धांत के सभी परिणामों के बारे में विस्तार से वर्णन नहीं करेंगे, क्योंकि वे कई कार्यों में पर्याप्त रूप से प्रस्तुत किए गए हैं (उदाहरण के लिए, [सोलोमनॉफ, 1997], [ली और विटानि, 1997], [पोटेन्कोव, 2007] और उसमें उल्लिखित संदर्भ)। हालाँकि, आवश्यकतानुसार, हम कुछ मुद्दों पर चर्चा करेंगे जो एल्गोरिदम एआई मॉडल के विकास के लिए महत्वपूर्ण हैं।
विशेष रूप से, समीकरण (6) में, स्पष्ट तथ्य याद किया जाता है कि प्रोग्राम (एल्गोरिथम मॉडल) कुछ सार्वभौमिक मशीन यू (या कुछ प्रोग्रामिंग विधि के अनुरूप) पर चलते हैं, जिसके आधार पर एक ही एल्गोरिदम की लंबाई अलग होगी। इस तथ्य को स्पष्ट रूप से इंगित करने के लिए, हम q (।) के बजाय U (q) लिखते हैं। यह वितरण की सार्वभौमिकता पर संदेह करता है q (q)।
इस समस्या का पारंपरिक उत्तर यह है कि किसी भी सार्वभौमिक मशीन U को किसी अन्य प्रोग्राम V का उपयोग करके किसी अन्य मशीन V पर अनुकरण किया जा सकता है, और किसी भी प्रोग्राम q, V (uq) = U (q) के लिए। इसलिए,

और इसी तरह, पी
वी (एक्स)
v 2
एल (वी) पी
यू (एक्स), जहां पी
वी , पी
यू संबंधित मशीनों द्वारा निर्धारित एल्गोरिथम संभावनाएं हैं। यही है, उनके द्वारा निर्दिष्ट एक पूर्ववर्ती संभावना एक स्थिर कारक से अधिक नहीं होगी। इस संबंध में, वे कहते हैं कि पर्याप्त मात्रा में स्रोत डेटा के साथ, संदर्भ की पसंद पर प्रेरण और भविष्यवाणी की निर्भरता गायब हो जाती है। यह निष्कर्ष गैर-सार्वभौमिक मशीन वी के लिए नहीं निकाला जा सकता है, क्योंकि q इसके लिए मौजूद होगा जैसे कि P
V (q) = 0, अर्थात्, इस मशीन का उपयोग करते समय संबंधित मॉडल प्रतिनिधित्व योग्य और गैर-व्युत्पन्न नहीं होगा। इस अर्थ में, विभिन्न सार्वभौमिक मशीनों द्वारा परिभाषित वितरण Pareto इष्टतम हैं: यदि आप कई मीडिया (एल्गोरिथम मॉडल द्वारा वर्णित) लेते हैं, तो कोई भी सार्वभौमिक वितरण कम से कम एक माध्यम (या किसी भी तरह से बदतर नहीं) में किसी भी अन्य की (भविष्यवाणी के संदर्भ में) बेहतर होगा वातावरण)। यह गैर-सार्वभौमिक मशीनों द्वारा निर्दिष्ट वितरण के बारे में नहीं कहा जा सकता है। हम यह भी ध्यान देते हैं कि यदि हम संकेतित रूप में परेतो इष्टतमता के लिए खुद को सीमित करते हैं, तो इसका मतलब यह है कि मीडिया के किसी विशेष वर्ग में यह वितरण कैसे प्रभावी है या नहीं, यानी भविष्यवाणी संभव के रूप में निष्पक्ष नहीं है (लेकिन ξ (q) = कॉन्स्टेंस के अर्थ में) लेकिन स्वयं ξ (q) को चुनने के अर्थ में, भले ही माध्यम का)।
हालांकि, आप तुरंत नोटिस कर सकते हैं कि "पर्याप्त डेटा" बहुत बड़ा हो सकता है, और इसका संचय अनुचित रूप से लंबा होगा। यह प्रश्न निम्नलिखित स्तरों के सार्वभौमिक खुफिया मॉडल से संबंधित है। यहां हम ध्यान दें कि यह कहना अधिक सही है कि मशीन का चुनाव कोई मायने नहीं रखता है, लेकिन यह कि अलग-अलग मशीनों के मामले में एल्गोरिथम की संभावनाएं सभी एल्गोरिथम मॉडल के लिए नॉनजरो हैं, और लगभग समान रूप से छंटनी भी करती हैं। यही है, एक प्राथमिकता संभावनाओं को सेट करना असंभव है ताकि पारंपरिक सार्वभौमिक मशीन के लिए संभावनाओं द्वारा मॉडल का आंशिक क्रम उलट हो। इस संबंध में, यह कहा जा सकता है कि सार्वभौमिक किसी भी एक संदर्भ मशीन द्वारा निर्दिष्ट प्राथमिकताओं का वितरण नहीं है, बल्कि सार्वभौमिक मशीनों पर एल्गोरिदम की जटिलता के माध्यम से उन्हें निर्दिष्ट करने की विधि है।
मॉडल AI Model
AI The मॉडल [हटर, 2005] μ (q) के बजाय ξ (q) को प्रतिस्थापित करके (4) और (5) से प्राप्त किया जाता है।


जहां way
k (q) उसी तरह से परिभाषित किया जाता है जैसे μ
k (q)।
इस मॉडल को विभिन्न रूपों में लिखा जा सकता है। आप न केवल एजेंट पी कार्यक्रमों की गणना को क्रियाओं की गणना के साथ बदल सकते हैं, बल्कि पर्यावरण x
> k की प्रतिक्रिया श्रृंखलाओं द्वारा गणना भी कर सकते हैं, हालांकि इस रूप में आपको अभी भी q के माध्यम से छांटना होगा, लेकिन इस मामले में x डेटा के विभिन्न पूर्वानुमानों के रूप में संभावनाएं (7)। इस मामले में, AIξ एल्गोरिथम एक गेम ट्री बनाने के समान होगा, लेकिन एक अज्ञात दुश्मन मॉडल के साथ। हम इस मॉडल के सभी रूपों को नहीं देंगे (इसके लिए आप स्रोत का उल्लेख कर सकते हैं)।
जब तक संसाधन प्रतिबंध नहीं लगाए जाते हैं, तब तक इस मॉडल के विभिन्न रूपों के बीच अंतर इतना महत्वपूर्ण नहीं है। हम केवल इस बात पर जोर देते हैं कि AI emphas मॉडल के सभी वेरिएंट्स फॉर्मूला (4) और (5) के रूप में एक ही खामी से पीड़ित हैं: वे वितरण (
k (q) में संभावित परिवर्तन पर कार्रवाई की पसंद के प्रभाव को ध्यान में नहीं रखते हैं। इस दोष को ठीक करना इतना मुश्किल नहीं है। स्वाभाविक रूप से, आपको यह भी समझने की आवश्यकता है कि यह मॉडल वास्तविक कार्यान्वयन की संभावना से कितनी दूर है। आखिरकार, अगर किसी एजेंट के पास केवल दो प्राथमिक क्रियाएं होती हैं जो एक बार एक दूसरे के साथ होती हैं, एक बाइनरी सेंसर और एक दर्द रिसेप्टर के साथ, तो एक बुद्धिमान एजेंट, जिसके कंप्यूटिंग संसाधन मानव मस्तिष्क के लिए तुलनीय हैं, पहले से एक मिनट से अधिक की योजना नहीं बना पाएंगे। कार्यक्रमों की कोई प्रत्यक्ष गणना या व्यवहार में कार्यों की संपूर्ण गणना अस्वीकार्य है।
एक बार फिर हम इस सवाल का जवाब देंगे, हम ऐसे मॉडलों को मौलिक रूप से आवश्यक प्रारंभिक बिंदु क्यों मानते हैं? इसका उत्तर यह है कि "व्यावहारिक" दृष्टिकोण ने एक मजबूत एआई के निर्माण में अपनी विफलता को साबित कर दिया है। यह तुरंत सार्वभौमिकता की संपत्ति खो देता है, और "पोस्ट फैक्टम" को पेश नहीं किया जा सकता है, जिसके बिना एआई मौलिक रूप से सीमित होगा। यह कमी केवल सार्वभौमिक एल्गोरिथम खुफिया के मॉडल में समाप्त हो गई है। हालांकि, सबसे सरल ऐसे मॉडलों के महत्व को कम करने के खिलाफ भी चेतावनी दी जानी चाहिए, क्योंकि वे केवल अक्षम हैं क्योंकि कमजोर एआई सिस्टम गैर-सार्वभौमिक हैं।
यह ध्यान देने योग्य है कि AI worth प्रकार के मॉडल एल्गोरिदमिक संभावना के आधार पर सार्वभौमिक भविष्यवाणी को ध्यान में रखते हुए काफी स्पष्ट हैं। हेटर की योग्यता इस मॉडल की शुरूआत में ही नहीं है, बल्कि इसके विस्तृत अध्ययन (इसकी इष्टतमता के प्रश्न सहित) और विस्तार में है।
उनकी बहुमुखी प्रतिभा और अद्वितीयता
क्या IMI मॉडल (AIξ प्रकार के मॉडल) वास्तव में सार्वभौमिक बुद्धिमत्ता का वर्णन करते हैं? हमने पहले ही देखा है कि उद्देश्य फ़ंक्शन को अधिकतम करने के लिए AI के लिए समस्या का बयान अधूरा है: उद्देश्य फ़ंक्शन को स्वयं स्थापित करने की समस्या बहुत मुश्किल है (यहां हम भविष्यवाणी सीमा सेट करने की अधिक विशिष्ट समस्या को शामिल कर सकते हैं)। लेकिन क्या यह सार्वभौमिक है, यदि केवल इस समस्या को हल करने के संदर्भ में?
विभिन्न सूक्ष्म पहलू हैं। उदाहरण के लिए, एक विराम समस्या के कारण एल्गोरिथम की संभावना कम्प्यूटेशनल नहीं है। हमने पहले ही नोट किया है कि गैर-स्टॉप मॉडल द्वारा उत्पन्न परिणाम को सीमा में कम्प्यूटेबिलिटी के अर्थ में व्याख्या किया जा सकता है। उपयोग की जाने वाली कम्प्यूटेबिलिटी की अवधारणा के आधार पर, नॉन-स्टॉप मॉडल (और व्यावहारिक दृष्टिकोण से, केवल लंबे समय तक चलने वाले मॉडल) को एल्गोरिथम संभावना की गणना करते समय ध्यान में रखा जा सकता है या अनदेखा किया जा सकता है। इस पहलू को भविष्य में स्पष्टीकरण की आवश्यकता होगी।
आईएमआई मॉडल का एक और बहस का पहलू निर्धारकवाद है। एक प्रारंभिक खेल पर विचार करें - रॉक-कैंची-पेपर (CBN)। प्रत्येक खिलाड़ी के पास क्रियाओं का एक निश्चित सेट होता है, और जीतने के लिए असंदिग्ध नियम होते हैं। हम इसे दौरों के परिमित अनुक्रम के मामले में मानते हैं।
हम केस o
k = q '(y
<k ), y
k = p' (x
<k ) के लिए दी गई गहराई के वेरिएंट (क्रिया / प्रतिक्रिया) का एक पेड़ बना सकते हैं; r
k को o
k और y
k द्वारा परिभाषित किया गया है। K = 1 के लिए, पेड़ सममित होगा, अर्थात, कार्यों के बीच कोई प्राथमिकता नहीं होगी। हालांकि, इस मामले में नियतात्मक एल्गोरिथ्म विशिष्ट रूप से एक कार्रवाई का चयन करेगा, जिसके बाद समरूपता टूट गई है। दौर के इतिहास के अनुसार, प्रत्येक प्रतिद्वंद्वी दूसरे प्रतिद्वंद्वी के कार्यक्रम को पुनर्स्थापित करने का प्रयास करेगा। सादगी के लिए, मान लीजिए कि एक दूसरे के कार्यक्रम मेल खाते हैं और अपने विरोधियों द्वारा एक प्राथमिकता के रूप में जाने जाते हैं। ये कार्यक्रम हो सकते हैं, उदाहरण के लिए, (2) के रूप में। लेकिन यदि कार्यक्रम नियतात्मक हैं, तो वे कार्यों के एक अस्पष्ट अनुक्रम का निर्धारण करते हैं, जिसका अर्थ है कि प्रत्येक विरोधी आसानी से दूसरे के कार्यों की गणना कर सकता है और एक जीत विकल्प बना सकता है। यहां एक स्पष्ट विरोधाभास है। आखिरकार, दोनों प्रतिद्वंद्वी जीत नहीं सकते!
वास्तव में, एक विरोधाभास है। यह बहुत सरल है, लेकिन बहुत गहरा है। तथ्य यह है कि, y
k की गणना में
, प्रोग्राम p प्रोग्राम q शुरू करता है, जो कि स्पष्ट है यदि प्रोग्राम p को समीकरण (3) द्वारा वर्णित किया गया है। लेकिन इस मामले में, q प्रोग्राम का एक ही रूप है और p प्रोग्राम को शुरू करता है, जो बदले में, क्यू प्रोग्राम को फिर से शुरू करता है, आदि। ऐसा लगता है कि प्रोग्राम (3) में q को कॉल की एक सीमित संख्या शामिल है। हम मध्यम से उम्मीद करते हैं कि यह एजेंट की कार्रवाई पर कुछ सीधे गणना की गई प्रतिक्रिया देगा। हालांकि, जैसे ही किसी अन्य एजेंट को एक पर्यावरण माना जाता है, जिसमें से पहले एजेंट के कार्यक्रम को शुरू करना शामिल है, अनंत पुनरावृत्ति प्राप्त होता है, और सिद्धांत रूप में कोई विकल्प नहीं बनाया जा सकता है। और यहां तक कि कंप्यूटिंग संसाधनों की एक अनंत राशि भी यहां नहीं बचाएगी। इसका मतलब यह है कि अन्य बौद्धिक एजेंटों के साथ बातचीत मौलिक रूप से बेहिसाब पहलू है।
बेशक, आप सोच सकते हैं कि यदि आप AI "आदर्शता" की आवश्यकता को कम करते हैं, तो यह विरोधाभास समाप्त हो सकता है, अर्थात् सीमित संसाधनों के साथ अधिक विस्तृत मॉडल पर विचार करें। हम कह सकते हैं कि सीमित संसाधनों के साथ, कुछ विकल्प अनिवार्य रूप से बनाए जाएंगे, लेकिन फिर कम संसाधनों वाला एक नियतांक एजेंट एजेंट को KNB में बेहतर संसाधनों के साथ खो देगा। इसी समय, केएनबी में एक प्रतिबंधात्मक रणनीति है, जो मनमाने ढंग से बड़े संसाधनों के साथ प्रतिद्वंद्वी के खिलाफ किसी भी कम्प्यूटेशनल लागत के बिना एक औसत ड्रा प्रदान करता है: यह वास्तव में यादृच्छिक (लेकिन छद्म यादृच्छिक नहीं) कार्रवाई का एक विकल्प है, जो एआई में पूरी तरह से अनुपस्थित है।
जैसा कि उल्लेख किया गया है, दुनिया में सच्ची यादृच्छिकता की उपस्थिति बहस योग्य है, लेकिन व्यवहार में, एक सेंसर को लागू करना जो एक एजेंट को बढ़ती एल्गोरिथम जटिलता की संख्या का अनुक्रम उत्पन्न करने की अनुमति देगा, मुश्किल नहीं होगा। यह भी ध्यान देने योग्य है कि KNB का उदाहरण दूर-दूर तक नहीं है। एक शिकारी और एक शिकार के रूप में एजेंटों की बातचीत में, एक प्रक्षेपवक्र की पसंद की यादृच्छिकता का पीछा करने की प्रक्रिया में समान महत्व है।
, , , ( , ). , , , , ( / ). , , , p q ( , , , ).
, , ? : , «», «»? , , , . , , , . , , , ( ), .
. , , . , , ( - ), , . , , , , « » , , , , .
निष्कर्ष
( ) . , , , , , , – , . , ( ) . , .
साहित्य
(हटर, 2005) हटर एम। यूनिवर्सल आर्टिफिशियल इंटेलिजेंस। एल्गोरिथम संभावना / स्प्रिंगर के आधार पर अनुक्रमिक निर्णय । 2005.278 पी।
(हटर, 2007) हंटर एम। यूनिवर्सल एल्गोरिथम इंटेलिजेंस: आर्टिफिशियल जनरल इंटेलिजेंस में एक गणितीय टॉप → डाउन अप्रोच //। कॉग्निटिव टेक्नोलॉजीज, बी। गोएर्टज़ेल और सी। पेनाचिन (Eds।)। स्प्रिंगर। 2007. पी। 227-290।
(Li and Vitanyi, 1997) Li M., Vitanyi P.
An Introduction to Kolmogorov Complexity and Its Applications. 2nd ed: NY, Springer-Verlag. 1997.
(Orseau and Ring, 2011) Orseau L, Ring M.
Self-Modification and Mortality in Artificial Agents // Lecture Notes in Computer Science 6830 (proc. Artificial General Intelligence – 4th International Conference). Springer, 2011. P. 1–10.
(Ring and Orseau, 2011) Ring M., Orseau L.
Delusion, Survival, and Intelligent Agents // Lecture Notes in Computer Science 6830 (proc. Artificial General Intelligence – 4th International Conference). Springer, 2011. P. 11–20.
(Schmidhuber, 2003) Schmidhuber J.
The new AI: General & sound & relevant for physics. तकनीकी रिपोर्ट TR IDSIA-04-03, संस्करण 1.0, cs.AI/0302012 v1, IDSIA। 2003।
(Solomonoff, 1986) Solomonoff R.
The Application of Algorithmic Probability to Problems in Artificial Intelligence // In: LN Kanal and JF Lemmer (Eds.). Uncertainty in Artificial Intelligence: Elsevier Science Publishers. 1986. P. 473-491.
(Solomonoff, 1997) Solomonoff R.
Does Algorithmic Probability Solve the Problem of Induction? // Oxbridge Research, POB 391887, Cambridge, Mass. 02139. 1997.
(, 2007) ..
: . : , 2007. 548 .