छद्म-नींबूकरण, कंपोजिट और अन्य अजीब शब्द


हमने पिछली पोस्ट में आपके साथ सभी कार्यों की समीक्षा करने का प्रबंधन नहीं किया था, इसलिए हम इसमें जारी रहेंगे।

अक्सर ऐसा होता है कि इंटरनेट पर कुछ न्योलोजिज्म दिखाई देता है। उदाहरण के लिए, ट्रोल। शब्द "ट्रोल" शब्दकोष में है, लेकिन अब कोई "ट्रोल" नहीं है, और, जैसा कि हमने पहले ही पता लगाया था, उपसर्ग पार्सिंग के दौरान रूट से अलग नहीं होता है, इसलिए हमें पता नहीं है कि यह "ट्रोल" क्या है और इसे कैसे बदलना है। इस शब्द का विश्लेषण करने के लिए, हमें छद्म भाषा-प्रयोग का उपयोग करना होगा। ऐसा करने के लिए, हम फिर से अंत के तथाकथित उल्टे पेड़ का उपयोग करते हैं (दाएं से बाएं)।

हम तुरंत खाली समाप्ति पाते हैं। यह माना जा सकता है कि "ट्रोल" एक संज्ञा है जो एक खाली अंत में समाप्त होती है। आगे हम एक नरम संकेत देखते हैं, और एक नरम संकेत के साथ कुछ भी समाप्त नहीं होता है। लेकिन "-t" क्रियाओं के लिए एक विशिष्ट अंत है। इस प्रकार, हम मान सकते हैं कि "ट्रोल" शब्द का आधार "ट्रोल-" है, अंत "-t" है। अब हम अन्य रूप प्राप्त कर सकते हैं। यदि हम "-t" को त्याग देते हैं और मर्दाना लिंग "l" के पिछले तनाव के उल्लंघन को प्रतिस्थापित करते हैं, तो हमें "ट्रोल" शब्द मिलता है।

इसके अलावा, हम समझते हैं कि "ट्रोल" क्रिया की एक सूचना है, जिसका अर्थ है कि जब हम उस वाक्य को बदलते हैं जिसमें हम "ट्रोल" शब्द को किसी अन्य भाषा में मिलते हैं, तो हम समझेंगे कि इस शब्द ने उल्लंघनकारी में किसी तरह की कार्रवाई व्यक्त की है । इस प्रकार, हम इसे लिप्यंतरण द्वारा अनुवाद कर सकते हैं, उदाहरण के लिए, "ट्रोलिंग" या "ट्रोल", और किसी तरह इसे व्यक्त भी करते हैं। यह ठीक वही है जो छद्म-लेमेटाइज़ेशन का कार्य है: अज्ञात शब्दों को पार्स करना, यद्यपि शब्दार्थ को नहीं समझना।

हिमखंड की युक्ति

हमने उन बुनियादी समस्याओं की जांच की, जो कंप्यूटर भाषाविज्ञान में आकृति विज्ञान का सामना करती हैं। यह समझना महत्वपूर्ण है कि यह वह क्या करती है का एक अंश है। हम जिन मुद्दों पर काम कर रहे हैं, उनकी आंशिक सूची यहां दी गई है।

कंपोजिट

"स्टीम और स्टीम लोकोमोटिव" शब्द लें। भाप क्या है-, ऊष्मा-, वायु-, भवन- अलग से यह स्पष्ट है। समस्याएं तब शुरू होती हैं जब हम इन जड़ों को जोड़ना शुरू करते हैं, और आप उन्हें लगभग अंतहीन रूप से जोड़ सकते हैं।

समग्र विस्फोट के साथ समग्र नियम हानिकारक और खतरनाक हैं। जब हम एक ऐसे शब्द का विश्लेषण करते हैं, जिसे एक समग्र नियम के अनुसार डिसाइड करना होता है, तो एक प्राथमिकता हमें प्रत्येक अक्षर के बाद विभाजित करनी चाहिए, और केवल वहीं जहां शब्दकोशों में मौजूद फॉर्म पाए जाते हैं, क्या हमें वास्तव में अलग होना चाहिए। यह पहला स्थान है जहां सैद्धांतिक रूप से विस्फोट हो सकता है, क्योंकि एक भाषा में एक ही अक्षर के शब्द अक्सर पाए जाते हैं: संयोजन, प्रस्ताव। इस वजह से, विभाजन बिंदुओं की संख्या कई गुना बढ़ सकती है।

इसके अलावा, सभी शब्दों को एक साथ नहीं चिपकाया जा सकता है। उदाहरण के लिए, हम शब्द गर्मी-पुनर्निर्माण पर विचार करते हैं; आप पहले कनेक्शन लोकोमोटिव-बिल्डिंग ("डीजल इंजनों का निर्माण" शब्द का अर्थ) को पुनर्स्थापित कर सकते हैं। और दूसरा एक संभव है: गर्मी-पुनर्निर्माण (जिसका अर्थ है "पुनर्निर्माण को गर्म करना")। लेकिन पुनर्निर्माण शब्द मौजूद नहीं है। इसी समय, शब्द "लोकोमोटिव" काफी एक शब्दकोश है। यह पता चला है कि समग्र के टुकड़ों को जोड़ने का क्रम महत्वपूर्ण है। देशी वक्ता जल्दी से समझता है कि शब्द के अर्थ को सही ढंग से कैसे पुनर्स्थापित किया जाए। लेकिन कंपोजिट विश्लेषण एल्गोरिथ्म को अलग-अलग अनुक्रम वेरिएंट के भाज्य के माध्यम से सॉर्ट करना आवश्यक है।

वाक्यांशों

मान लीजिए कि हम एक टिकट का विश्लेषण करने की कोशिश कर रहे हैं जो कहता है: "लॉस एंजिल्स-सैन फ्रांसिस्को"
यदि आप रिक्त स्थान से विभाजित करते हैं, तो हमें "एंजिल्स-सैन" और दो अलग-अलग शब्द "लॉस" और "फ्रांसिस्को" मिलते हैं। "एंजिल्स-सैन" क्या है? एक जापानी जिसका नाम है एंजिल्स के प्रति सम्मानजनक अपील ? हमारे सिस्टम को समझना चाहिए कि "लॉस एंजिल्स" एक वाक्यांश है, "सैन फ्रांसिस्को" एक और है, और "लॉस फ्रांसिस्को" और "सैन एंजिल्स" जैसे वाक्यांश नहीं हैं।

इनपुट त्रुटि सुधार एल्गोरिदम

यहां हमें एक साथ दो कार्यों का सामना करना पड़ता है। कुछ भी करने से पहले, यह निर्धारित करना महत्वपूर्ण है कि क्या उपयोगकर्ता ने एक शब्द दर्ज करते समय गलती की थी, या क्या यह जानबूझकर था? दूसरे, अगर वह अभी भी गलत था, तो यह समझना आवश्यक था कि त्रुटि किस शब्द में थी, और वह वास्तव में क्या लिखना चाहता था।

सांख्यिकीय प्रसंस्करण

रूसी में, साथ ही साथ किसी भी अन्य में, अलग-अलग शब्दों का उपयोग विभिन्न आवृत्तियों के साथ किया जाता है। कई कार्यों में, इस आवृत्ति को जानना अमूल्य है। उदाहरण के लिए, एक ही छद्म लेमेटाइज़ेशन में। सिस्टम को दो विकल्प मिलते हैं, और यह तय करना आवश्यक है कि किसे चुनना है। यदि कोई संदर्भ है, तो इससे आप कुछ जानकारी प्राप्त कर सकते हैं जो सही विकल्प निर्धारित करने में मदद करेगी। यदि कोई संदर्भ नहीं है, तो सभी विकल्पों को प्रदर्शित करना आवश्यक है। और इस मामले में रैंक विकल्पों को देना बेहतर है: जो कि सांख्यिकीय रूप से अधिक सामान्य हैं, पहले बाहर दे, और जो कम आम हैं - अंतिम।

चर्चा!

हमने उन मुख्य कार्यों की विस्तार से जांच की जो प्राकृतिक भाषा प्रसंस्करण कंप्यूटर आकृति विज्ञान पर आधारित होते हैं। बेशक, सभी समस्याओं का समाधान नहीं किया गया है, लेकिन हम इस पर काम कर रहे हैं। यदि यह विषय आपके लिए रुचिकर है, तो आप कुछ और जानना चाहते हैं या शायद अपने विचारों को साझा करना चाहते हैं, मुझे आपके साथ टिप्पणियों में चैट करने में खुशी होगी

Source: https://habr.com/ru/post/In190872/


All Articles