सबसे छोटी के लिए आकृति विज्ञान और कंप्यूटर भाषाविज्ञान

टेक्नोपार्क के बारे में पहले से ही हैबे पर एक पोस्ट थी, और यहां तक ​​कि पाठ्यक्रम ( 1 , 2 ) के बारे में कहानियां भी थीं। आज हम मास्टर क्लास के पहले भाग को प्रकाशित करते हैं, जो टेक्नोपार्क के छात्रों के लिए एबीबीवाई से एंड्रे एंड्रियानोव द्वारा संचालित किया गया था।

इसके साथ शुरू करने के लिए, यह याद रखने के लिए आमार नहीं होगा कि आकृति विज्ञान क्या है, और यह भी कि भाषाविज्ञान से इसका क्या संबंध है। इसके लिए, मैं सुझाव देता हूं कि श्रृंखला की पहली पोस्ट की सामग्री में कटौती के तहत जा रहा हूं।

आप में से कई स्कूल के वाक्य "ग्लॉकी कुज्ड्रा शेटको बुडानुला बोकरा और कर्लस लिटिल बोकरनका" से परिचित हैं। यद्यपि हम नहीं जानते कि इस वाक्य के सभी शब्दों के पीछे क्या छिपा है (संघ "और" के अपवाद के साथ), हम मान सकते हैं कि यहां मुख्य चरित्र चचेरा भाई है। और यह कोई साधारण कुजड़ा नहीं है, बल्कि ग्लॉक है। उसने क्या किया? Budlanula। उसने ऐसा कैसे किया? Steck। वह किसका नवोदित था? Bokra। इसके अलावा, वह बोकेरेनको पर कुछ कार्रवाई करती है।

इस वाक्यांश का आविष्कार शिक्षाविद लेव शेर्बा द्वारा किया गया था, और शिक्षाविद अलेक्जेंडर पोटेबनाया ने इस वाक्यांश के उदाहरण का उपयोग करते हुए अपने छात्रों को बताया कि कैसे हम एक शब्द के आकृति विज्ञान से शब्दार्थ के एक निश्चित हिस्से को अंत में से निकाल सकते हैं। हम शब्दों के शाब्दिक अर्थ को नहीं जानते हैं - हम यह नहीं समझते हैं कि वस्तुओं का नाम क्या है - लेकिन हम उनके व्याकरणिक अर्थ को पकड़ सकते हैं। यह व्याकरणिक अर्थों के बारे में है जो मैं इस लेख में बताना चाहूंगा।

आकृति विज्ञान भाषा विज्ञान की एक शाखा है जो 4 चीजों का अध्ययन करती है।

भाषण के कुछ हिस्सों

जैसे ही आप वाक्य पढ़ते हैं: "ग्लॉसी कुज्ड्रा शेटको बुडलानुला बोकरा और घुंघराले बालों वाला छोटा लड़का", आपने तुरंत इस विषय को पकड़ लिया और दो भविष्यवाणी की - "बुडानूला" और "घुंघराले बालों वाली"। अलग-अलग भाषाओं में भाषण के अलग-अलग हिस्से अलग-अलग तरीकों से वाक्य बना सकते हैं।

मोड़

जब आप शब्द "बुदानुला" देखते हैं, तो इसका मतलब जाने बिना भी, आप पहले से ही इसे अस्वीकार कर सकते हैं, इसे जोड़ सकते हैं। आप समझते हैं कि इस शब्द का असीम "विल" है। आप लिंग (budlanul, budlanulo) को बदल सकते हैं, लेकिन आप समय (budlanul, budlanul) को बदल सकते हैं। आकृति विज्ञान का दूसरा उपखंड - शब्द परिवर्तन - यह अध्ययन कर रहा है कि शब्द कैसे बदलते हैं, वे एक या दूसरे व्याकरणिक अर्थों को किस रूप में निर्धारित करते हैं।

शब्द गठन


एक वाक्य में एक बोकरा और एक बोक्रेन से मिलने के बाद, आपने तुरंत कल्पना की कि बोकर एक हाथी और हाथी की तरह एक बोकरा शावक है। हो सकता है कि यह एक बड़े ब्रोकर की सिर्फ एक छोटी सी प्रति हो - ठीक है, चरित्र बाहर नहीं खड़ा है, उदाहरण के लिए, विकास द्वारा।

हम अक्सर वस्तु के कुछ गुणों को बदलने के लिए, प्रत्यय (उदाहरण के लिए, कम) का उपयोग करके नए शब्द बनाते हैं; आप भाषण का हिस्सा भी बदल सकते हैं। उदाहरण के लिए, "फावड़ा" शब्द है। इस शब्द से, यदि वांछित है, तो आप क्रिया को बना सकते हैं: - फावड़ा। मूल वक्ताओं को इसका अर्थ जल्दी समझ में आ जाएगा, लेकिन जो लोग एक विदेशी भाषा के रूप में रूसी का अध्ययन करते हैं, वे लंबे समय तक अनुमान लगाएंगे कि यह किस तरह का शब्द है और यह शब्दकोष में क्यों नहीं है। अक्सर, हम विभिन्न जानवरों के गुणों से क्रिया बनाते हैं और कुछ गुणों के साथ इन क्रियाओं को समाप्त करते हैं।

व्याकरणिक अर्थ

मैंने पहले ही उल्लेख किया है कि इस शब्द के दो अर्थ हैं - शाब्दिक (शब्द का अर्थ शब्दकोश में), और व्याकरणिक (जो शब्द का अर्थ वाक्य में होता है)। किसी प्रकार के शब्दार्थ को व्याकरणिक अर्थ से लिया जा सकता है। उदाहरण के लिए, शब्द "बुदानुला"। जाहिर है, यह एक क्रिया है। यह इस प्रकार है कि शब्द "बुदानुला" का अर्थ क्रिया है। इसके अलावा, हम कह सकते हैं कि यह भूत काल, एकवचन, स्त्री, परिपूर्ण रूप में एक क्रिया है। यह सब आपको अतिरिक्त जानकारी देता है। उदाहरण के लिए, रूसी भाषा में, अक्सर स्त्री लिंग लिंग के साथ जुड़ा होता है। हम यह नहीं समझा सकते हैं कि प्लग स्त्रीलिंग क्यों है और कांच पुल्लिंग है, लेकिन लड़की क्यों उठी और लड़का गुलाब, हम समझते हैं। और हम अफवाह को काट देंगे अगर कोई लिंग चुनने में गलती करता है।

स्कूल डेस्क से, हम व्याकरण के सेट के रूप में व्याकरणिक अर्थ प्रस्तुत करते हैं। आनुवांशिक, अतीत काल, एकवचन - ये सभी अलग-अलग व्याकरण हैं। ग्रामों को श्रेणियों में बांटा जा सकता है। Nominative, genitive, dative, accusative और prepositional मामले की एक श्रेणी है। एक और एक ही रूप में एक ही श्रेणी के दो व्याकरण नहीं हो सकते। यदि हम कहते हैं "बुडलानुला", तो हमारा मतलब केवल ग्राम्य विलक्षण है। एक ही "budlanula" रूप में, हम क्रिया के दो रूपों को एक साथ एन्क्रिप्ट नहीं कर सकते हैं। नाममात्र और संबंध दोनों मामलों में संज्ञा नहीं हो सकती है। रूपों का मिलान हो सकता है, क्योंकि वे अक्सर नाममात्र और अभियोगात्मक मामलों में मेल खाते हैं, लेकिन उन्हें प्रतिष्ठित होना चाहिए। यह आकृति विज्ञान के कार्यों में से एक है।

अनुप्रयुक्त भाषाविज्ञान

कंप्यूटर भाषाविज्ञान कृत्रिम बुद्धि का हिस्सा है। कंप्यूटर भाषाविज्ञान का उद्देश्य एल्गोरिदम का निर्माण है जिसके साथ मशीन विभिन्न इनपुट स्रोतों से आने वाले पाठ या शब्दों के अर्थ को समझेगी - ध्वनि, छवि, पाठ जानकारी।

कंप्यूटर भाषा विज्ञान के क्षेत्र:

प्राकृतिक भाषा प्रसंस्करण

प्राकृतिक भाषा के प्रसंस्करण में सबसे व्यापक रूप से उपयोग किए जाने वाले कंप्यूटर भाषाविज्ञान का उपयोग किया जाता है। प्रसंस्करण कई प्रकार की समस्याओं को हल करता है, जिसमें शब्दकोशों और स्वचालित अनुवाद शामिल हैं।
प्राकृतिक भाषा प्रसंस्करण से संबंधित अन्य प्रौद्योगिकियां सैद्धांतिक और व्यावहारिक दोनों दृष्टिकोणों से भी दिलचस्प हैं। पाठ और ऑटो-अमूर्त से तथ्यों को निकालना स्वचालित रूप से मशीन सीखने के तरीकों की तुलना में अधिक सटीकता के साथ पाठ के बड़े संस्करणों को वर्गीकृत कर सकता है। ज्ञान प्रबंधन प्रणाली, विशेषज्ञ और सवाल-जवाब प्रणाली भी पाठ से ज्ञान के निष्कर्षण पर आधारित हैं।

पाठ मान्यता (ओसीआर)

पाठ को पहचानते समय, अन्य तकनीकों का उपयोग किया जाता है। और इस मामले में, हम इस बात में रुचि रखते हैं कि शब्द शब्दावली है या नहीं। जब पाठ को मान्यता दी जाती है, तो हम अक्सर धुंधली छवियों से निपटते हैं, और बिनाराइजेशन एल्गोरिदम जो पाठ पहचान से पहले होते हैं, 100% परिणाम नहीं दे सकते हैं। इस संबंध में, वहाँ जो कुछ लिखा गया है, उसके बारे में बहुत सारी परिकल्पनाएँ उत्पन्न होती हैं। कभी-कभी "एम" या "एन" से "के" अक्षर को "के" से अलग करना असंभव है, और फिर कंप्यूटर भाषाविज्ञान, या अधिक सटीक रूप से, आकृति विज्ञान, खेल में आता है। आकृति विज्ञान बताता है कि भाषा में ऐसा कोई शब्द है या नहीं।

वाक् पहचान (ASR)

भाषण मान्यता एक समान तरीके से काम करती है। ध्वनियों के एक सेट से परिकल्पनाएं उन विशिष्ट अक्षरों पर बनाई जाती हैं जो एक व्यक्ति उच्चारण करता है। गाय शब्द को लें। हम कहते हैं करवा, और हम गाय लिखते हैं। यहां यह समझना महत्वपूर्ण है कि "कैरोवा" शब्द रूसी भाषा में है या नहीं।

भाषण संश्लेषण

भाषण संश्लेषण एक और दिलचस्प तकनीक है जिसका उपयोग स्वतंत्र रूप से और स्वचालित अनुवाद के ढांचे में किया जा सकता है। यह पहले से ही एक सिंथेटिक कार्य है: हमें एक प्राकृतिक भाषा में पाठ का विश्लेषण करने, इसके अर्थ का निर्धारण करने और परिणाम के आधार पर, किसी अन्य प्राकृतिक भाषा में एक पाठ उत्पन्न करने की आवश्यकता है।

यह परिचय भाग है। अगली पोस्ट में हम कंप्यूटर भाषा विज्ञान में आकृति विज्ञान की भूमिका के बारे में बात करेंगे।

Source: https://habr.com/ru/post/In188026/


All Articles