शायद साइंस फिक्शन के आगमन के बाद से सभी साइंस फिक्शन लेखकों का सपना ऐसा है जैसे कंप्यूटर का वॉयस कंट्रोल। और क्या, अगर मशीन के साथ एक जीवंत संवाद नहीं है, तो आप नवीनतम कृत्रिम बुद्धिमत्ता की उपस्थिति का अनुकरण करने की अनुमति देते हैं और यह विश्वास करने का कारण देते हैं कि कॉफी ग्राइंडर जल्दी या बाद में पागल हो जाएगा, दुनिया पर कब्जा करेगा और मैट्रिक्स में तुच्छ लोगों को डाल देगा?
भाषण मान्यता को लागू करने का पहला प्रयास पिछली शताब्दी के मध्य में शुरू हुआ, और व्यक्तिगत कंप्यूटरों के प्रसार के साथ, इस प्रक्रिया के लिए अपनी शक्ति का उपयोग करने की इच्छा स्वाभाविक थी। मुझे याद है कि लगभग 15 साल पहले विंडोज के लिए पहले से ही प्रोग्राम थे जो आपको मैक्रोज़ बनाने की अनुमति देते थे जो वॉइस कमांड के अनुरूप थे। उनकी मदद से, मैंने तीन अक्षरों में जाने के अनुरोध के जवाब में मेहमानों को एक कांपते हुए रोमांच में फेंक दिया, विंडोज ने काम पूरा किया और क्लासिक शिलालेख के लिए रास्ता दिया "अब आप कंप्यूटर की शक्ति को बंद कर सकते हैं"। इन कार्यक्रमों के काम का आधार पहले से लिखे गए लोगों के साथ प्राप्त आदेशों की तुलना था। ध्वनि तरंगों के विश्लेषण का उपयोग करके यह तुलना की गई थी, और इस दृष्टिकोण का शून्य स्पष्ट है - आदेशों को एक ही सूचना के साथ और अधिमानतः चेतना की एक ही स्थिति में स्पष्ट किया जाना चाहिए।
"कंप्यूटर के वॉयस कंट्रोल" के लिए चित्र। हैरिसन फोर्ड, जैसा कि था, हमें बताता है "34 से 36 बढ़ाएं", जो भी इसका मतलब है ...एक अधिक तार्किक दृष्टिकोण, बोली जाने वाली वाक्यांश की ध्वन्यात्मक विशेषताओं का विश्लेषण है और प्रत्येक शब्द को एक शब्दकोश के साथ तुलना करने का प्रयास है, जो भाषण के तरीके और यहां तक कि कुछ "काल्पनिक दोष" के रूप में ऐसी विशेषताओं के मान्यता परिणाम पर प्रभाव को कम करता है। तो आप गुणात्मक रूप से रूसी भाषण को कैसे पहचानते हैं? Google उपयुक्त API के साथ आने वाला पहला है। कुछ भी इस एपीआई के उपयोग को अपने "स्मार्ट होम" में सफलतापूर्वक एकीकृत करते हैं - स्क्रिप्ट निगम को उनके द्वारा सुने जाने वाले हर वाक्यांश को भेजती है, और फिर दिए गए आदेशों में से किसी एक के साथ मान्यता प्राप्त पाठ की तुलना करने की कोशिश करती है। स्वाभाविक रूप से, मैंने तुरंत इस विकल्प को खारिज कर दिया, अन्यथा मुझे हर बार इस प्रणाली को बंद करना होगा, जिस पर मुझे चर्चा करने की आवश्यकता है कि लाश को कैसे निकालना सबसे अच्छा है। इसके अलावा, यह ज्ञात नहीं है कि यह फ्रीबी कितने समय तक चलेगा और क्या Google अचानक इस सेवा को अवरुद्ध करने का निर्णय लेता है।
इसलिए, जब मुझे एक बार पता चला कि मैं अपने HTPC के साथ बात करना चाहता हूं, तो मैंने ऑफ़लाइन मान्यता प्रणालियों की ओर रुख किया। मैंने सबसे लोकप्रिय -
CMU स्फिंक्स में से एक के साथ शुरुआत की। पहला वाक्यांश जो मैंने उसे बार-बार बताने की कोशिश की, वह था "प्रकाश चालू करना!"। मैं अपने परीक्षण का एक लॉग प्रदान करता हूं:
स्वर्ग
सोच
और पता है कि एक पिंट कैसे पीना है
फिर अनुभव की लाश के शीर्ष पर
दुनिया के लिए सच नाक वोदका
बार-बार
तथ्य
पांच
इसके बारे में
आज सुबह
यहां
यही है, ज़मीरा के लिए गीत के एक जनरेटर के रूप में, यह नीचे आ सकता है, लेकिन यह पूर्ण उपयोग के लिए उपयुक्त नहीं है। ध्वनिक मॉडल को अपनाने और शब्दावली को सीमित करने से स्थिति में बहुत सुधार नहीं हुआ।
इस बिंदु पर, मैं इस नतीजे पर पहुंचा कि आवाज नियंत्रण को व्यवस्थित करने का अब तक का सबसे महत्वपूर्ण तरीका सबसे कथित दुश्मन की भाषा में लोहे के एक छोटे टुकड़े के साथ बातचीत करना है। यह कोई रहस्य नहीं है कि अंग्रेजी, रूसी की तुलना में कई मायनों में सरल है, जिसमें ध्वन्यात्मक रूप से भी शामिल है, जो हमारे लिए विशेष रूप से महत्वपूर्ण है। और अंग्रेजी भाषण को पहचानने के लिए आवश्यक कार्यक्षमता पहले से ही विंडोज के नवीनतम संस्करणों में मौजूद है। "मुझे माफ करना, लेकिन हम ऑक्सफोर्ड खत्म नहीं किया! ”- पाठकों में से एक को आपत्ति होगी। और उन्होंने इसे सही किया। वोरोनिश कंस्ट्रक्शन कॉलेज वास्तविक दुनिया में जीवन के लिए बेहतर तैयार है। और आदर्श सर्वनाम की उपस्थिति, जैसा कि यह निकला, बिल्कुल भी आवश्यक नहीं है। यदि भविष्य के कंप्यूटर भी हैरिसन फोर्ड की अविवेकी काबिलियत को समझते हैं, तो हम क्यों बदतर हैं? उदाहरण के लिए, मेरा उच्चारण एक हॉलीवुड थ्रैश फिल्म से बोरत और कुछ पागल रूसी का मिश्रण है, जिसे नीचे दिए गए वीडियो को देखकर देखा जा सकता है। मैं उपशीर्षक बनाने के लिए बहुत आलसी नहीं था, क्योंकि मैं खुद शायद ही समझ सकता हूं कि मैं वहां क्या कर रहा हूं।
यह कैसे काम करता है?
उपयोगकर्ता और विंडोज भाषण मान्यता के बीच एक "गैसकेट" के रूप में,
VoxCommando (~ $ 27) नामक एक उत्पाद का उपयोग किया जाता है। विंडोज टूल का उपयोग करने वाला यह प्रोग्राम वाक्यांश को पहचानता है और उपयोगकर्ता द्वारा निर्दिष्ट आदेशों के साथ इसकी तुलना करता है। शब्दकोश के प्रतिबंध के कारण, मान्यता सटीकता 100% के करीब है।
VoxCommando XBMC के लिए बड़ी संख्या में उपयोगी प्लगइन्स के साथ आता है, जो मेरे लिए विशेष रूप से दिलचस्प था। XBMC प्लगइन के अलावा, यह भी ध्यान दें:
- EventGhost प्लगइन - मैं टीवी और रिसीवर के लिए आईआर-नियंत्रण संकेत भेजने के लिए उपयोग करता हूं।
- मनमाने ढंग से HTTP अनुरोध प्लगइन - मैं यैंडेक्स अनुवादक एपीआई का उल्लेख करता हूं, जिसने "साँप पैमाने" का अनुवाद "साँप के पैमाने" के रूप में किया है।
- वेरा और एक्स 10 के लिए प्लगइन्स भी हैं जो आपको होम ऑटोमेशन जैसे लाइटिंग को नियंत्रित करने की अनुमति देते हैं।
वॉइस कमांड को कॉन्फ़िगर करें। बाईं विंडो आदेशों और उनके संबंधित वाक्यांशों और उनकी विविधताओं की एक सूची है। सही - आवश्यक कार्यों की एक सूची के साथ वर्तमान कमान के संपादक (इस मामले में, JSON-RIS API का उपयोग करके XBMC तक पहुंच)।VoxCommando आपको सिस्टम में स्थापित टेक्स्ट-टू-स्पीच इंजन का उपयोग करने की अनुमति देता है, इसलिए आप मशीन के साथ पूर्ण संवाद का आयोजन करने का प्रयास कर सकते हैं। मैंने इस पर ध्यान केंद्रित नहीं किया, मैंने केवल "मैं कौन हूं" के सवाल का जवाब देने के लिए युवती को सिखाया "आपका डैडी कौन है?" और इस पर शांत हुए।
माइक्रोफ़ोन
एक अन्य महत्वपूर्ण मुद्दा माइक्रोफोन की पसंद है। जिन लोगों ने कभी भाषण पहचान का सामना किया है, वे जानते हैं कि एक हेडसेट इसके लिए सबसे उपयुक्त है। लेकिन कृत्रिम बुद्धि को आदेश देने के लिए, अपने सिर पर तारों और प्लास्टिक के ढेर को बन्धन करना, किसी भी तरह से साइबरपंक नहीं है - किसी भी विज्ञान कथा फिल्म में आपको ऐसी बात के लिए हंसी आएगी। कुछ काफी सफलतापूर्वक Kinect या
द वॉयस ट्रैकर जैसी चीज का उपयोग करते हैं, लेकिन इन उपकरणों में पर्याप्त कमियां हैं - भाषण की गुणवत्ता की सीमा काफी सीमित है, पृष्ठभूमि के शोर पर निर्भरता, वर्तमान में खेली जा रही सामग्री से गलत सकारात्मकता काफी सीमित है। यह बहुत संभव है कि प्रेम की घोषणा के दौरान एक मेलोड्रामा का नायक गलती से पोर्न ग्राइंड की शैली में एक संगीत एल्बम के नाम का उच्चारण करता है, और मीडिया केंद्र इसे एक अस्पष्ट संकेत के रूप में मानता है कि यह सुंदर को छूने का समय है।
इस समस्या के समाधान की तलाश में, मैं एक
एमुलेट रिमोट पर आया। यह एक नियमित एमसीई-रिमोट की तरह दिखता है, लेकिन अवरक्त ट्रांसमीटर के अलावा, इसमें एक वायरलेस माइक्रोफोन भी होता है जो डिवाइस को लाने पर सक्रिय हो जाता है।
ताबीज रिमोट। जब डिवाइस को सीधा लाया जाता है, तो रिमोट कंट्रोल पर लोगो लाल हो जाता है, इशारा करता है कि वह संवाद करना चाहता है।कुछ कमियों (पारंपरिक रीमोट और सीखने की अक्षमता की तुलना में छोटी बैटरी लाइफ) के बावजूद, मुझे लगता है कि यह इस समय सबसे सफल HTPC वॉयस कंट्रोल डिवाइस है। अब एमुलेट रिमोट को $ 69 के लिए पेश किया जाता है, लेकिन चूंकि निर्माता अपने उत्पादों को केवल संयुक्त राज्य में भेजता है, इसलिए आपको डिलीवरी के लिए एक मध्यस्थ कंपनी की सेवाओं का उपयोग करना होगा। एमुलेट रिमोट का उपयोग करने की मान्यता की गुणवत्ता बहुत उच्च स्तर पर है, और यह आश्चर्य की बात नहीं है - उपकरण आयरलैंड में विकसित किया गया था और सबसे अधिक संभावना है, एक आयरिश उच्चारण के साथ कठोर तनाव परीक्षण पारित किया है।
निष्कर्ष
ऊपर वर्णित विकल्प का उपयोग न केवल मीडिया सेंटर को नियंत्रित करने के लिए किया जा सकता है, बल्कि "स्मार्ट होम" के विभिन्न सिस्टमों को नियंत्रित करने के लिए भी किया जा सकता है, साथ ही स्वचालन की आवश्यकता वाले अधिकांश अन्य कार्यों के लिए, चाहे वह एक निश्चित वेब सेवा तक पहुंच हो, एक एप्लिकेशन लॉन्च कर रहा हो या आईआर भेज रहा हो। -signal। उदाहरण के लिए, वॉइस कमांड का उपयोग करके, आप मौसम का पता लगा सकते हैं या एयर कंडीशनिंग चालू कर सकते हैं। अभी तक बियर भेजना संभव नहीं है, लेकिन हम इस दिशा में तकनीकी प्रगति के और कदमों की आशा करेंगे।