नीचे
साक्षात वर्चुअल लैब्स वेबसाइट से रिकॉर्ड का मुफ्त अनुवाद है
भाषण की अल्पावधि प्रसंस्करण की आवश्यकता
लेख में एक भाषण सिग्नल की विशेषताओं को इकट्ठा करने के लिए एक तरीके के बारे में और तीन मुख्य विशेषताओं के बारे में जानकारी है जो ऑडियो सिग्नल और भाषण प्रसंस्करण के लिए कई एल्गोरिदम को पूरा करती है।
अधिकांश सिग्नल प्रोसेसिंग उपकरण स्थिर प्रणालियों में काम करते हैं, अर्थात। एक स्थिर संकेत है। भाषण को मुखर तंत्र प्रणाली द्वारा पुन: पेश किया जाता है, और इसलिए यह स्वाभाविक रूप से गैर-स्थिर है। इसलिए, पारंपरिक साधन जो सिग्नल प्रोसेसिंग के लिए उपयोग किए जाते हैं, भाषण प्रसंस्करण के लिए उपयुक्त नहीं हैं। उनका उपयोग करना सीधे अंतर्निहित मान्यताओं का उल्लंघन करता है। और यहां तक कि अगर आप उन्हें नेत्रहीन रूप से उपयोग करते हैं, तो भी परिणाम व्यावहारिक महत्व नहीं होगा। उदाहरण के लिए, कुल ऊर्जा की गणना का एक साधन सिग्नल प्रोसेसिंग के क्षेत्र में मौलिक है:
मान लीजिए आप भाषण ऊर्जा की गणना करने के लिए इस सूत्र का उपयोग कर सकते हैं। निस्संदेह, यह हमें भाषण संकेत में मौजूद ऊर्जा देगा। हालांकि, परिणामी मूल्य हमें कुछ भी नहीं देगा। कारण भाषण की प्रकृति है - हम जानते हैं कि इसमें एक समय-भिन्न आयाम और ऊर्जा है, इसलिए एक उपकरण की आवश्यकता होती है जो समय के साथ ऊर्जा में परिवर्तन के बारे में जानकारी प्रदान करेगा।
भाषण प्रसंस्करण के लिए एक समाधान प्रस्तावित किया गया था, जिसमें मामूली संशोधन के साथ सिग्नल प्रोसेसिंग के क्षेत्र से पहले से ही ज्ञात विधियों का उपयोग करना शामिल था। यही है, प्रसंस्करण उपकरणों का उपयोग अभी भी एक स्थिर संकेत माना जाता है। 10-30ms के छोटे ब्लॉकों में देखे जाने पर एक स्थिर भाषण संकेत प्राप्त होता है। इसलिए, विभिन्न सिग्नल प्रोसेसिंग साधनों द्वारा भाषण प्रसंस्करण के लिए, इसे 10-30ms के ब्लॉक में माना जाता है (इसके बाद, इस अनुभाग को भाषण संकेत कहा जाएगा)। इस प्रोसेसिंग को शॉर्ट टर्म प्रोसेसिंग (STP) कहा जाता है।
एसटीपी भाषण समय या आवृत्ति डोमेन में किया जा सकता है। क्षेत्र का चुनाव इस बात पर निर्भर करता है कि हम भाषण से कौन सी जानकारी निकालना चाहते हैं। उदाहरण के लिए, शॉर्ट टर्म एनर्जी, शॉर्ट टर्म जीरो क्रॉसिंग रेट और शॉर्ट टर्म ऑटोक्रेलेशन जैसे मापदंडों की गणना समय डोमेन में की जा सकती है, और फूरियर ट्रांसफॉर्म की गणना आवृत्ति डोमेन में की जा सकती है। इनमें से प्रत्येक पैरामीटर भाषण के बारे में कुछ जानकारी देता है, और इसका उपयोग प्रसंस्करण के लिए किया जा सकता है।
अल्पकालीन ऊर्जा
हम ऊर्जा को अमूर्त मात्रा कहते हैं जो सिग्नल की विशेषता है। भाषण की ऊर्जा अपनी प्रकृति के कारण समय में बदलती है और इसलिए, किसी भी स्वचालित प्रसंस्करण के लिए, यह जानना महत्वपूर्ण है कि यह ऊर्जा समय में कैसे बदलती है। मूल रूप से, भाषण संकेत में भाषण / गैर-भाषण अनुभाग / मौन होते हैं। एक भाषण अनुभाग की ऊर्जा एक गैर-भाषण अनुभाग की ऊर्जा से बड़ी होती है, जबकि मौन की ऊर्जा शून्य के करीब होती है। इस प्रकार, भाषण या मौन की उपस्थिति के आधार पर आवाज / गैर-आवाज भागों को वर्गीकृत करने के लिए अल्पकालिक ऊर्जा विशेषता का उपयोग किया जा सकता है।
सिग्नल प्रोसेसिंग क्षेत्र में परिभाषित कुल ऊर्जा सूत्र से अल्पकालिक ऊर्जा प्राप्त करने का सूत्र प्राप्त किया जा सकता है। वहां, कुल सिग्नल ऊर्जा की गणना निम्नानुसार की जाती है:
अल्पकालिक ऊर्जा की गणना करने के लिए, हम 10-30ms की अवधि के साथ भाषण के एक खंड पर विचार करते हैं। मान लें कि फ्रेम में नमूने "एन = 0 से एन = एन -1" के रूप में सूचीबद्ध हैं, जहां एन फ्रेम अवधि (नमूनों की संख्या) है। फ्रेम की सीमाओं से परे, ऊर्जा शून्य होगी। इस प्रकार हम प्राप्त करते हैं:

यही है, सूत्र भाषण के एक ब्लॉक में पूरी ऊर्जा देता है।
जहाँ w (n) एक विंडो फ़ंक्शन है - सिग्नल प्रोसेसिंग साहित्य में ऐसे कई कार्यों का उल्लेख किया गया है। सबसे अधिक उपयोग किया जाता है
आयताकार खिड़की:
हन्ना खिड़की:
या हैमिंग विंडो:
समय डोमेन में गणना की गई सभी विशेषताओं के लिए, हम इसकी सरलता के कारण एक आयताकार खिड़की का उपयोग करेंगे।
अब आप पूरी तरह से अल्पकालिक ऊर्जा गणना सूत्र लिख सकते हैं:
जहां n नमूनों में बदलाव है। चूंकि भाषण के मामले में ऊर्जा परिवर्तन महत्वहीन हैं, इसलिए यह एक छोटी सी पारी के साथ अल्पकालिक ऊर्जा पर विचार करने का कोई मतलब नहीं है। इसलिए, अक्सर यह आधे फ्रेम के बराबर या उससे कम सेट किया जाता है।
अल्पकालिक ऊर्जा के बारे में ध्यान देने योग्य आखिरी चीज फ्रेम का आकार है। चूंकि भाषण 10 से 30ms के ब्लॉकों में लगभग स्थिर हो जाता है, आमतौर पर 20ms का एक फ्रेम आकार चुना जाता है। यदि आप एक बड़ा आकार चुनते हैं, तो हम ऊर्जा की एक चिकनी तस्वीर प्राप्त करेंगे और ध्यान नहीं दे सकते कि यह कैसे बदलता है।
शॉर्ट टर्म जीरो क्रॉसिंग रेट (ZCR)
ज़ीरो क्रॉसिंग रेट फ़ंक्शन के संकेत में परिवर्तन की संख्या (ओएक्स अक्ष के फ़ंक्शन द्वारा अंतर) के बारे में जानकारी देता है। यदि किसी सिग्नल में चौराहों की संख्या बड़ी है, तो सिग्नल में उच्च आवृत्ति की जानकारी होती है और इसके विपरीत। इस तरह, ZCR सिग्नल की आवृत्ति सामग्री पर जानकारी प्रदान करता है।
एक स्थिर संकेत के मामले में, ZCR की गणना निम्नानुसार की जाती है:
इस सूत्र को भाषण जैसे अस्थिर संकेत के लिए ठीक किया जा सकता है और इसे अल्पकालिक ZCR कहा जा सकता है:
भाषण की प्रकृति से, संकेत कुछ एमएस के बाद समय के साथ बदलता है। कुछ जानकारी प्राप्त करने के लिए, ZCR को 10-30ms की समान अवधि और आधे फ्रेम के बराबर बदलाव के साथ फ्रेम पर गणना करने की आवश्यकता होती है। ऊपर रिकॉर्ड किए गए वाक्य को संसाधित करने के लिए एक शेड्यूल है "वह पूरे साल आपके चिकना धोने के पानी में आपका सूट था"। स्वर ध्वनि "एस" पर, विशेषता का मूल्य स्वर "ए" पर मूल्य से अधिक है।
अल्पावधि निरंकुशता
सिग्नल प्रोसेसिंग में, क्रॉस-सहसंबंध का उपयोग दो अनुक्रमों के बीच समानताएं खोजने के लिए किया जा सकता है, और ऑटोक्रेलेशन को केवल एक अनुक्रम की आवश्यकता होती है और यह निर्धारित करता है कि सिग्नल समय में कितना दिखता है।
एक गैर-स्थिर संकेत के लिए, निरंकुशता की गणना निम्न सूत्र द्वारा की जाती है:
जहाँ s = s (m) w (nm) s (n) का विंडो संस्करण है। नतीजतन, हमें एक अल्पकालिक स्वसंरचना अनुक्रम मिलता है। इस अनुक्रम की प्रकृति भाषण के साथ और बिना वर्गों के लिए अलग है।
और यद्यपि निरंकुशता के विषय का पूरी तरह से खुलासा नहीं किया गया है, इस विषय के संदर्भ में इसका उल्लेख नहीं करना अनुचित होगा।
PS अगले लेख में, सामग्री को अधिक समझने के लिए कुछ विशेषताओं की गणना का कार्यान्वयन अंततः अपेक्षित है।