नमस्ते, मेरा नाम नताल्या है, मैं तथ्य निष्कर्षण समूह में एक डेवलपर के रूप में यांडेक्स में काम करता हूं। वसंत में, हमने इस बारे में बात की कि टॉमेटा पार्सर क्या है और इसका इस्तेमाल यैंडेक्स में क्या किया जाता है। और पहले से ही यह गिरावट पार्सर के स्रोत कोड को सार्वजनिक डोमेन में पोस्ट किया जाएगा।
पिछली पोस्ट में, हमने पार्सर और इसकी आंतरिक भाषा के सिंटैक्स का उपयोग करने के तरीके के बारे में बात करने का वादा किया था। यह मेरी आज की कहानी है।

इस पोस्ट को पढ़ने के बाद, आप सीखेंगे कि कैसे टॉमिटा के लिए शब्दकोशों और व्याकरणों को संकलित किया गया है, साथ ही साथ प्राकृतिक भाषा में ग्रंथों से तथ्यों को उनकी मदद से कैसे निकाला जाए। एक ही जानकारी एक छोटे वीडियो कोर्स के प्रारूप में उपलब्ध है।
व्याकरण नियमों का एक समूह है जो एक पाठ में शब्दों की एक स्ट्रिंग का वर्णन करता है। उदाहरण के लिए, यदि हमारे पास "मुझे पसंद है कि आप मेरे साथ बीमार नहीं हैं", तो यह निम्नलिखित श्रृंखला [पहला सर्वनाम, एकवचन], [वर्तमान काल और तीसरे व्यक्ति], [अल्पविराम], [संघ] का उपयोग करके वर्णित किया जा सकता है। आदि

व्याकरण एक विशेष औपचारिक भाषा में लिखा जाता है। संरचनात्मक रूप से, नियम को प्रतीक द्वारा विभाजित किया गया है ->
बाएं और दाएं भागों में। बाईं ओर एक गैर-थर्मल है, और दाएं में टर्मिनलों और गैर-टर्मिनलों दोनों शामिल हैं। इस संदर्भ में एक टर्मिनल एक वस्तु है जिसका एक विशिष्ट, अपरिवर्तनीय मूल्य है। कई टर्मिनल टॉमिता भाषा की वर्णमाला हैं, जहाँ से अन्य सभी शब्दों का निर्माण किया जाता है। टोमाइट में शब्द 'लेम्मास' हैं - एकल उद्धरणों में लिखे गए प्रारंभिक शब्द, ( Noun, Verb, Adj
...), विराम चिह्न ( Comma, Punct, Hyphen
...) और कुछ अन्य विशेष वर्ण ( Percent, Dollar
...) के कुछ भाग। टोमाइट में लगभग बीस टर्मिनल हैं, उनकी पूरी सूची हमारे प्रलेखन में प्रस्तुत की गई है। गैर-टर्मिनलों को टर्मिनलों से बना दिया जाता है, और अगर हम प्राकृतिक भाषाओं के साथ एक सादृश्य बनाते हैं, तो वे कुछ इस तरह के शब्द हैं। उदाहरण के लिए, नॉनटर्मिनल नूनप्रेज़, दो टर्मिनलों Adj
और Noun
मिलकर, दो शब्दों की एक श्रृंखला का अर्थ है: पहले एक विशेषण, फिर एक संज्ञा।
हमारे पहले व्याकरण की रचना करने के लिए, आपको एक्सटेंशन .cxx के साथ एक फ़ाइल बनाने की आवश्यकता है, इसे पहले_ग्राम करें। आप इसे उसी स्थान पर सहेज सकते हैं जहां पार्सर बाइनरी स्वयं निहित है। व्याकरण फ़ाइल की पहली पंक्ति एन्कोडिंग निर्दिष्ट करना चाहिए:
#encoding "utf8"
फिर आप नियम लिख सकते हैं। हमारे पहले व्याकरण में उनमें से दो होंगे:
PP -> Prep Noun; S -> Verb PP;
पहला नियम नॉनटर्मिनल PP
वर्णन करता है - एक प्रीपोजल समूह जिसमें एक प्रीपोजिशन और एक संज्ञा ( Prep Noun
) होता है। दूसरा नियम एक क्रिया है जिसमें एक पूर्वपद समूह ( Verb PP
) होता है। इस मामले में, nonterminal S
जड़ है क्योंकि यह नियम के दाईं ओर कभी उल्लेख नहीं किया गया है। इस गैर-टर्मिनल को पेड़ का शीर्ष कहा जाता है। यह पूरी श्रृंखला का वर्णन करता है जिसे हम पाठ से निकालना चाहते हैं।
हमारा पहला व्याकरण तैयार है, लेकिन पार्सर शुरू करने से पहले आपको कुछ और जोड़-तोड़ करने की जरूरत है। तथ्य यह है कि व्याकरण सीधे पार्सर के साथ बातचीत नहीं करता है, लेकिन रूट शब्दकोश के माध्यम से - वह इकाई जिसमें सभी निर्मित व्याकरण, शब्दकोश, अतिरिक्त फाइलें, आदि के बारे में जानकारी एकत्र की जाती है। यानी रूट डिक्शनरी एक प्रकार का एग्रीगेटर है जो प्रोजेक्ट के भीतर बनाया गया है। टॉमिट पार्सर के लिए डिक्लेयर Google प्रोटोबॉफ़ के समान सिंटैक्स का उपयोग करते हुए लिखे गए हैं (इनहेरिटेंस के समर्थन के साथ, प्रोटोबॉफ़ कंपाइलर के संशोधित संस्करण का उपयोग करके)। फ़ाइलों को आमतौर पर एक्सटेंशन .gzt दिया जाता है। रूट डिक्शनरी बनाएं dic.gzt और शुरुआत में एन्कोडिंग को भी इंगित करें:
encoding "utf8";
उसके बाद, हम मूल शब्दकोश फ़ाइलों में आयात करते हैं जिसमें शब्दकोशों और व्याकरणों में उपयोग किए जाने वाले मूल प्रकार होते हैं। सुविधा के लिए, इन फ़ाइलों को पार्सर बाइनरी में सीवन किया जाता है, और हम उन्हें पथ निर्दिष्ट किए बिना सीधे आयात कर सकते हैं:
import "base.proto"; import "article_base.proto";
आगे हम एक लेख बनाते हैं। एक शब्दकोश लेख बताता है कि किसी पाठ में शब्दों की एक स्ट्रिंग को कैसे उजागर किया जाए। व्याकरण संभव तरीकों में से एक है। आप पार्सर एल्गोरिथ्म (नाम और तिथियों की श्रृंखला) में निर्मित कीवर्ड की सूची का उपयोग करके एक श्रृंखला का चयन कर सकते हैं। अन्य तरीकों को पार्सर स्रोत कोड (उदाहरण के लिए, सांख्यिकीय नाम पहचानकर्ता) के स्तर पर जोड़ा जा सकता है। लेख में प्रकार, शीर्षक और सामग्री शामिल हैं। किस प्रकार के लेख हैं और उनकी आवश्यकता क्यों है, मैं नीचे बताऊंगा जब हम शब्दकोशों के बारे में अधिक बात करेंगे। अभी के लिए, हम बेस टाइप TAuxDicArticle
उपयोग करेंगे। लेख का शीर्षक अद्वितीय होना चाहिए, यह प्रकार के बाद उद्धरण चिह्नों में इंगित किया गया है। फिर, ब्रेसिज़ में, चाबियाँ सूचीबद्ध हैं - लेख की सामग्री। हमारे मामले में, एक एकल कुंजी में हमारे द्वारा लिखे गए व्याकरण की एक कड़ी होती है। सबसे पहले, हम उस फ़ाइल के सिंटैक्स को इंगित करते हैं जिसे हम संदर्भित करते हैं (एक व्याकरण फ़ाइल के मामले में, यह हमेशा tomita
), और इस फ़ाइल का पथ, फिर type
फ़ील्ड में - कुंजी का प्रकार (यह निर्दिष्ट किया जाना चाहिए कि कुंजी में व्याकरण का लिंक है)।
TAuxDicArticle "_" { key = {"tomita:first_grammar.cxx" type=CUSTOM} }
पार्सर को यह बताने के लिए कि हमें स्रोत पाठ कहां से प्राप्त होता है, जहां हम परिणाम लिखते हैं, हम कौन से व्याकरण लॉन्च करते हैं, हम कौन से तथ्य निकालते हैं, साथ ही अन्य आवश्यक जानकारी, एक्सटेंशन के साथ एक एकल कॉन्फ़िगरेशन फ़ाइल बनाई जाती है। पार्सर फ़ोल्डर में config.proto फ़ाइल बनाएँ। हमेशा की तरह, शुरुआत में हम एन्कोडिंग को इंगित करते हैं और हमारे कॉन्फ़िगरेशन के विवरण के लिए आगे बढ़ते हैं।
कॉन्फ़िगरेशन फ़ाइल का एकमात्र आवश्यक पैरामीटर रूट डिक्शनरी का मार्ग है, जो शब्दकोश फ़ील्ड में लिखा गया है। अन्य सभी पैरामीटर वैकल्पिक हैं। इनपुट फ़ाइल के बारे में जानकारी Input
फ़ील्ड में है। टेक्स्ट फ़ाइलों के अलावा, टोमाइट को इनपुट फ़ोल्डर, आर्काइव या स्टडिन में जमा किया जा सकता है। Output
फ़ील्ड रिकॉर्ड करता है कि कहाँ और किस प्रारूप में (पाठ, xml या प्रोटोबॉफ़) निकाले गए तथ्यों को सहेजा जाना चाहिए। हम input.txt फाइल को इनपुट पर भेज देंगे। Articles
उन व्याकरणों को सूचीबद्ध करता है जिन्हें हम चलाना चाहते हैं। कृपया ध्यान दें कि यहां हम फ़ाइल को व्याकरण के साथ नहीं, बल्कि उस शब्दकोश के लेख का नाम बताते हैं, जिसमें इस फ़ाइल का लिंक है: जैसा कि हमने पहले ही कहा था, पार्सर अप्रत्यक्ष रूप से रूट शब्दकोश के माध्यम से सभी प्रोजेक्ट फ़ाइलों के साथ इंटरैक्ट करता है।
encoding "utf8"; TTextMinerConfig { Dictionary = "dic.gzt"; Input = {File = "input.txt"} Output = {File = "output.txt" Format = text} Articles = [ { Name = "_" } ] }
अब जब कॉन्फ़िगरेशन फ़ाइल तैयार हो गई है, तो हमें केवल विश्लेषण के लिए पाठ (बाइनरी के बगल में) के साथ एक फ़ाइल डालनी होगी (आप हमारी परीक्षण फ़ाइल का उपयोग कर सकते हैं या अपनी खुद की ले सकते हैं) और आप व्याकरण लॉन्च करने के लिए आगे बढ़ सकते हैं। टर्मिनल में, हम उस फ़ोल्डर में जाते हैं जहाँ हमारा पार्सर निहित है। पार्सर को एक एकल तर्क के साथ लॉन्च किया गया है - कॉन्फ़िगरेशन फ़ाइल का नाम। तदनुसार, * NIX सिस्टम में, शुरू करने का कमांड इस तरह दिखेगा:
./tomitaparser config.proto
परिणाम output.txt फ़ाइल में मिल सकते हैं। हालाँकि, हम वहां कोई भी निकाले गए तथ्य नहीं देखेंगे, क्योंकि अभी तक हमारे व्याकरण में केवल श्रृंखलाओं के चयन के नियम हैं, और चयनित श्रृंखलाओं के लिए संरचित तथ्यों में बदलने के लिए, हमें एक व्याख्या प्रक्रिया जोड़ने की आवश्यकता है। हम इसके बारे में थोड़ी कम बात करेंगे। हालाँकि, हम पहले से ही इस स्तर पर चयनित श्रृंखला देख सकते हैं, इसके लिए हमें कॉन्फ़िगरेशन फ़ाइल में एक और पैरामीटर जोड़ने की आवश्यकता है - डिबग आउटपुट:
PrettyOutput = "pretty.html"
इस पैरामीटर के लिए धन्यवाद, पार्सर के परिणामों को अधिक दृश्य प्रतिनिधित्व के साथ HTML-फ़ाइल में लिखा जाएगा। अब, यदि हम व्याकरण को पुनः आरंभ करते हैं और फोल्डर में दिखाई देने वाली pretty.html फ़ाइल को खोलते हैं, तो हम देखेंगे कि हमने व्याकरण में हमारे द्वारा वर्णित सभी श्रृंखलाओं को पुनः प्राप्त कर लिया है - क्रिया जिसके बाद संज्ञा पूर्वसर्ग के साथ आती है:
परिणामदूत की सवारी |
दुआ के पास रहना |
रात भर के लिए रुकें |
उसके पास जाओ |
Stavropol पर जाएं |
साथ चलो |
वोदका ले लो |
लाइन पर आओ |
हाइलैंडर्स के खिलाफ रखा |
तीसरे में रेककन |
दिन का पालन करें |
दक्षिण में होना |
ऊपर जाना |
घाटी में वापस देखो |
मांग वोदका |
मुख्यालय के कप्तान को देखो |
एक गाय पर ठोकर |
आग से आश्रय |
चेचन्या में होना |
शाफ्ट पर ले जाएँ |
एक सूटकेस से बाहर खींचो |
अफसोस |
सामने से पहले निकल जाओ |
पर मुकदमा चलाया |
दूर रहो |
किले में खड़े हो जाओ |
एक किले में बसना |
एक सूअर पर जाने के लिए |
हंसो |
इसमें होना है |
पैसे के लिए हो |
ताली बजाते हैं |
इसे देखो |
मालिक के पीछे दौड़ो |
सकला बनो |
बाहर हवा में जाओ |
पहाड़ों पर जाओ |
बाड़ के साथ उतारा |
तेरे पीछे हो |
abreks के साथ सवारी |
स्टंप पर कूदो |
वेकेशन में दौड़ें |
मोर्चे पर लटकाओ |
एक खड्ड में उड़ना |
मार डालना |
स्टेपनी तक पहुँचें |
किनारे से दौड़ो |
खुरों से उड़ना |
अंधेरे में चमकना |
चेन मेल करने के लिए चिपटना |
जंगल की बाड़ को मारो |
स्थिर हो जाना |
एक बंदूक ले लो |
भीड़ के बीच कताई |
एक अजनबी में होना |
कुछ और बात करो |
प्यार से आओ |
औल में कूदो |
गढ़ छोड़ दो |
चेहरा बदलो |
एक बंदूक पर कूदो |
एक उत्साही पर सवारी |
मामले से पकड़ो |
जमीन पर गिरना |
किले में आना |
उस पर सरपट दौड़ना |
औल जाना |
उसके पास जाओ |
एक मृत अंत में हो |
एक मृत अंत में हो |
कोने में बैठो |
कैद में डूबना |
खिड़की से बाहर देखो |
एक सोफे पर बैठो |
उसके पास जाओ |
हाथ मिलाओ |
दरार करने में सक्षम हो |
एक सपने में सपना |
सड़क से प्रतीक्षा करें |
शाम को होना |
झाड़ी से गोता लगाना |
पहाड़ी से देखें |
बर्फ में कंपकंपी |
झोपड़ी से बाहर निकलो |
के रूप में बाहर जाओ |
बंद करना |
अपनी ताकत खो दो |
स्वर्ग के लिए नेतृत्व |
बादल में गायब हो जाना |
शीर्ष पर आराम करो |
क्रंच अंडरफुट |
सर में घुस जाना |
दिल से दूर हो जाना |
हुड पहाड़ चढ़ो |
विकिरण से दूर हो जाओ |
हुड पहाड़ों नीचे जाओ |
शब्द से आते हैं |
अपने पैरों के नीचे गिरो |
बर्फ में बदलो |
कोहरे में छिप जाना |
सलाखों पर हराया |
मौसम में बंद करो |
वोदका देना |
गाल पर जंगली चलाते हैं |
मृत्यु की घोषणा करो |
जंगली सूअर के लिए धोने के लिए |
एक सेर से शादी करो |
कमरे के चारों ओर चलो |
बिस्तर पर बैठो |
पहाड़ों पर खींचें |
बिस्तर पर गिरो |
सितंबर में हो |
सर्फ़ के आसपास चलो |
टर्फ ले लो |
शाफ़्ट बंद हो |
कोने पर बैठो |
स्थिर रहो |
रकाब पर खड़े हो जाओ |
शिकार से लौट आओ |
नदी से बाहर हो |
शर्त |
इसमें बदलाव करें |
शिकार करना |
देशी के लिए तरस रही |
में डाल दिया |
हिरासत से बाहर निकलो |
अमेरिका जाना |
सड़क पर मरो |
राजधानी का दौरा करें |
पीने से आता है |
मुखर होना |
नरकट के चारों ओर सूँघना |
नरकट में जाना |
ढेर |
क्षेत्र में इंगित करें |
काठी से बाहर चीर |
Pechorin के साथ पकड़ |
झपकी लेना |
अपने घुटनों पर गिरो |
हाथ पर रखना |
एक चट्टान पर चढ़ना |
घोड़ों से उतरना |
एक घाव से बाहर डालना |
स्मृति के बिना हो |
उसे संयंत्र |
डॉक्टर के लिए भेजें |
किले से बाहर निकलो |
एक पत्थर पर बैठो |
झाड़ियों में खींचें |
एक घोड़े पर कूदो |
बिस्तर से बैठो |
दीवार की ओर मुड़ें |
पहाड़ों को चाहते हैं |
आत्मा से मिलो |
जन्नत में होगा |
एक विचार के साथ आओ |
उसी में मरो |
घुटने टेक दो |
सर्फ़ के पास जाओ |
दु: ख के साथ मरो |
जमीन पर बैठो |
त्वचा के माध्यम से चलाएं |
किले के पीछे दफनाना |
जॉर्जिया जाओ |
रूस वापस लौटें |
मैक्सिम के साथ हिस्सा |
पार्सर प्रारंभिक रूप में श्रृंखला के मुख्य शब्द (डिफ़ॉल्ट रूप से पहले) को परिवर्तित करके निकाले गए जंजीरों को सामान्य करने का प्रयास करता है।
अगला चरण एक व्याख्या प्रक्रिया की शुरूआत है, अर्थात्। निकाले गए चेन को तथ्यों में बदलना।
पहले हमें उस तथ्य की संरचना बनाने की आवश्यकता है जिसे हम निकालना चाहते हैं, अर्थात्। वर्णन करें कि इसमें कौन से क्षेत्र शामिल हैं। ऐसा करने के लिए, एक नया fact_types.proto फ़ाइल बनाएं। फिर, हम मूल प्रकारों के साथ फ़ाइलों को आयात करेंगे, और फिर स्वयं तथ्य के विवरण के लिए आगे बढ़ेंगे। शब्द संदेश के बाद तथ्य का नाम, एक बृहदान्त्र और मूल प्रकार का तथ्य लिखा जाता है, जिससे हमारे तथ्य का प्रकार विरासत में मिलता है। अगला, घुंघराले कोष्ठक में, हम अपने तथ्य के क्षेत्रों को सूचीबद्ध करते हैं। हमारे मामले में, फ़ील्ड एक है, यह आवश्यक है (आवश्यक), टेक्स्ट (स्ट्रिंग), जिसे फ़ील्ड 1 कहा जाता है और हम इसे पहचानकर्ता 1 प्रदान करते हैं।
import "base.proto"; import "facttypes_base.proto"; message Fact: NFactType.TFact { required string Field1 = 1; }
अब हमें उस फ़ाइल को रूट डिक्शनरी (dic.gzt) में आयात करने की आवश्यकता है:
import "fact_types.proto";
चलो व्याकरण पर चलते हैं, जिसमें व्याख्या प्रक्रिया होती है। मान लीजिए कि हम पाठ से एक तथ्य निकालना चाहते हैं: क्रिया जो एक पूर्वसर्ग के साथ संज्ञा को नियंत्रित करती है। ऐसा करने के लिए, नियम में, क्रिया मार्कर के बाद, हम interp
लिखते हैं, और फिर कोष्ठक में तथ्य का नाम और डॉट के माध्यम से उस क्षेत्र का नाम जिसमें हम निकाले गए चेन डालना चाहते हैं।
S -> Verb interp (Fact.Field1) PP
व्याकरण में कहीं भी व्याख्या हो सकती है, लेकिन तथ्य केवल तभी निकाला जाता है जब व्याख्या किया गया चरित्र जड़हीन में गिरता है।
शुरू करने के लिए आवश्यक अंतिम विवरण कॉन्फ़िगरेशन फ़ाइल में इंगित करना है कि पार्सर शुरू होने पर हम किन तथ्यों को निकालना चाहते हैं। इस मामले में वाक्यविन्यास समान है जब ट्रिगर व्याकरणों को निर्दिष्ट किया जाता है: Facts
फ़ील्ड में, वर्ग ब्रैकेट सभी आवश्यक तथ्यों को सूचीबद्ध करते हैं। हमारे मामले में, केवल एक तथ्य है:
Facts = [ { Name = "Fact" } ]
अब आप फिर से पार्सर शुरू कर सकते हैं।
परिणामजाने के लिए |
रोकना |
रोकना |
ऊपर आओ |
जाने के लिए |
धक्का देना |
लेने के लिए |
आने के लिए |
लगाना |
माना जाता है |
पालन करना |
होना है |
जाने के लिए |
पीछे देखो |
मांग करना |
देखना |
ठोकर खाना |
शरण देना |
होना है |
दूर हटो |
बाहर खींचो |
पछतावा करना |
बाहर जाओ |
देने के लिए |
होना है |
खड़ा होना |
बस जाओ |
चलना |
फाड़ना |
होना है |
होना है |
ताली |
देखना है |
चलाने के लिए |
बनने के लिए |
बाहर जाओ |
सो जाओ |
एक रास्ता बनाओ |
होना है |
सवारी करना |
कूदना |
चलाने के लिए |
पर लटका |
उड़ान भरने के लिए |
मारने के लिए |
पहुँच जाओ |
चलाने के लिए |
उड़ान भरने के लिए |
चमकने के लिए |
बजना |
हिट |
जल्दी करना |
पकड़ के लिए आ |
चारों ओर घूमना |
लगाना |
बोलना |
होना है |
कूद |
छोड़ने के लिए |
परिवर्तनशील |
कूदना |
छोड़ |
छीनना |
नीचे गिरना |
आने के लिए |
सरपट भागना |
बंद करना |
जाने के लिए |
बनने के लिए |
बनने के लिए |
बैठने के लिए |
दूर होना |
में देखने के लिए |
बैठने के लिए |
बंद करो |
हिट करना |
सक्षम होना |
सपने देखना |
इंतजार करना |
होना है |
गोता लगाना |
देखना |
ठंडा होने के |
बाहर जाओ |
बाहर जाओ |
बंद करना |
खटखटाओ |
नेतृत्व करना |
गायब हो जाते हैं |
आराम करने के लिए |
कुचलना |
वृद्धि करने के लिए |
गिर जाना |
ऊपर चढ़ना |
उतर जाओ |
नीचे जाओ |
घटित होना |
गिरना |
में बदल जाते हैं |
छिपाने |
हरा देना |
रोकना |
देने के लिए |
जंगली भागो |
की घोषणा |
धोना |
बाहर जाओ |
चलना |
बैठने के लिए |
घसीटना |
गिरना |
होना है |
जैसा होना चाहिए |
बैठ जाना |
होना है |
बैठने के लिए |
खड़ा होना |
उठो |
वापस आ जाओ |
होना है |
हरा देना |
परिवर्तनशील |
बाहर ले जाना |
तरसना |
लगाना |
बाहर जाओ |
जाने के लिए |
मरने के लिए |
होना है |
घटित होना |
होना है |
poking |
छोड़ने के लिए |
एक साथ हो जाओ |
निर्दिष्ट |
फाड़ना |
पकड़ना |
पालन करना |
गिरना |
धारण करना |
हाथापाई करना |
उतर जाओ |
बहना |
होना है |
रोपण करने के लिए |
भेजना |
बाहर जाओ |
बैठ जाना |
खींचना |
ऊपर कूदो |
बैठने के लिए |
दूर हो जाओ |
चाहने के लिए |
मिलना |
होगा |
आने के लिए |
मरने के लिए |
बनने के लिए |
जाने के लिए |
मरने के लिए |
बैठ जाना |
के माध्यम से चलाएँ |
दफनाने के लिए |
छोड़ने के लिए |
वापस आ जाओ |
टूट जाना |
अतिरिक्त व्याकरण की विशेषताएं
अब हम खुद को और अधिक कठिन कार्य निर्धारित करते हैं: एक व्याकरण लिखने की कोशिश करें जिसके साथ आप पाठ से सड़क के नाम निकाल सकते हैं। हम पाठ (शब्द सड़क, राजमार्ग, एवेन्यू, आदि) में वर्णनकर्ताओं के लिए खोज करेंगे और उनके बगल में खड़ी श्रृंखलाओं का विश्लेषण करेंगे। जंजीरों को एक बड़े अक्षर से शुरू करना चाहिए और विवरणक के बाईं या दाईं ओर स्थित होना चाहिए। Address.cxx व्याकरण के साथ एक नई फ़ाइल बनाएं और इसे हमारे प्रोजेक्ट के साथ फ़ोल्डर में सहेजें। तुरंत हमारे नए व्याकरण के साथ मूल शब्दकोश में एक लेख जोड़ें:
TAuxDicArticle "" { key = {"tomita:address.cxx" type=CUSTOM} }
अब fact_types.proto में एक नया Street
तथ्य जोड़ें जिसे हम पुनः प्राप्त करना चाहते हैं। यह दो क्षेत्रों से मिलकर बनेगा: अनिवार्य (सड़क का नाम) और वैकल्पिक (विवरणक)।
message Street: NFactType.TFact { required string StreetName = 1; optional string Descr = 2; }
व्याकरण लिखने के लिए सीधे जाने के लिए, आपको कई नई अवधारणाओं को पेश करने की आवश्यकता है जिन्हें हमने पहले नहीं छुआ है।
पहली अवधारणा ऑपरेटरों की है। वे आपको व्याकरण नियमों के अधिक सुविधाजनक संक्षिप्त अंकन प्राप्त करने की अनुमति देते हैं:
- * - चरित्र 0 या अधिक बार दोहराया जाता है;
- + - चरित्र को 1 या अधिक बार दोहराया जाता है;
- () - प्रतीक को नियम 0 या 1 समय में शामिल किया गया है;
- | - ऑपरेटर "या"।
व्याकरण लिखने के लिए आगे बढ़ते हैं। हम address.cxx फ़ाइल में दो नियम लिखेंगे - पहले हम StreetW नॉनटर्मिनल का वर्णन करते हैं, जिसमें कुछ स्ट्रीट डिस्क्रिप्टर के नाम होंगे और दूसरे में,
StreetSokr
-
StreetSokr
संक्षिप्त रूप से।
#encoding "utf8" StreetW -> '' | '' | '' | ''; StreetSokr -> '' | '' | '-' | '' | '';
अगला, हम नॉन-टर्मिनल StreetDescr
, जो दो पिछले वाले को जोड़ती है:
StreetDescr -> StreetW | StreetSokr;
अब हमें जंजीरों का वर्णन करने की आवश्यकता है, जो कि यदि वे वर्णनकर्ता के बगल में हैं, तो सड़क के नाम हो सकते हैं। ऐसा करने के लिए, हम दो और अवधारणाओं का परिचय देते हैं: कूड़े के प्रतिबंध और समन्वय।
लिटर्स टर्मिनलों और गैर-टर्मिनलों के गुणों को निर्दिष्ट करते हैं, अर्थात्। टर्मिनल या गैर-टर्मिनल का वर्णन करने वाले जंजीरों के सेट पर प्रतिबंध लागू करें। वे टर्मिनलों / गैर-टर्मिनलों के बाद कोण कोष्ठक में लिखे गए हैं और, गैर-टर्मिनलों के मामले में, समूह वाक्यविन्यास मुख्य शब्द पर लागू होते हैं। संरचना में लाइटर विविध हो सकते हैं। कुछ एकतरफा ऑपरेटर हैं, कुछ के पास एक क्षेत्र है जिसे विभिन्न मूल्यों के साथ आबाद किया जा सकता है। हम कुछ ऐसे लिटर को सूचीबद्ध करते हैं जिनका हम भविष्य में उपयोग करेंगे (पूरी सूची हमारे प्रलेखन में पाई जा सकती है):
- आकृति विज्ञान कूड़े
gram
एक ऐसा क्षेत्र है जो शब्दकोष से किसी भी रूपात्मक श्रेणी से भरा जा सकता है: भाषण का हिस्सा, लिंग, संख्या, मामला, समय, मूड, आवाज, व्यक्ति, आदि। <gram = “, , ”>
; - व्याकरणिक लेबल - लेबल का एक समूह जो निकाले गए श्रृंखला के रजिस्टर पर प्रतिबंध लगाता है:
<h-reg1>, <l-reg>
; - विशेष अंक - एक वाक्य में एक शब्द की स्थिति, वर्णमाला, आदि को प्रतिबिंबित कर सकते हैं।: ,,
, , ;
: , : <~fw>, <~lat> .
, , ;
: , : <~fw>, <~lat>
.
थोड़ा अलग सिंटैक्टिक कूड़े है . ( ), . .
. ( ), . .
कोण मिलान कोष्ठक में लिटर मिलान भी दर्ज किया गया है और इसका अर्थ है कि जिन दो पात्रों को इसे सौंपा गया है, उनमें समान व्याकरणिक श्रेणियां होनी चाहिए। सबसे अधिक बार, निम्नलिखित अनुमोदन लागू होते हैं:
- जीनस, संख्या और मामले द्वारा:
gnc-agr
; - लिंग और संख्या के अनुसार:
gn-agr
; - केस:
c-agr
।
नियम में, एक मिलान पहचानकर्ता लिखना आवश्यक है जो इंगित करता है कि कौन सा चरित्र किसके साथ संगत है। उदाहरण के लिए, निम्नलिखित नियम में, प्रतीक A लिंग, संख्या और मामले में B के अनुरूप है, और C के साथ - संख्या और मामले में:
S -> A<gnc-agr[1], nc-agr[2]> B<gnc-agr[1]> C<nc-agr[2]>;
सड़क नामों के लिए हमारे नियम पर वापस जाएं। आमतौर पर सड़क का नाम या तो विवरणक (Moskovsky Prospekt) के साथ एक विशेषण सहमत है, या नाममात्र या जनन मामले में एक संज्ञा समूह (कुजनेत्स्की सबसे स्ट्रीट या क्रास्नाय कुर्स्कोव स्ट्रीट) के साथ खड़ा है। सबसे पहले, संज्ञा वाक्यांश का वर्णन करें। इस श्रृंखला का मुख्य तत्व एक शब्द होगा जिसे इसके (वैष्णिह वोडी स्ट्रीट) विशेषण से पहले स्वीकार किया जा सकता है, और उसके बाद - आनुवंशिक मामले (मास्को की आठवीं शताब्दी) में एक और शब्द।
StreetNameNoun -> (Adj<gnc-agr[1]>) Word<gnc-agr[1],rt> (Word<gram="">);
विशेषणों द्वारा व्यक्त की गई सड़क के नाम काफी सरल रूप से वर्णित हैं। यह कुछ विशेषणों का क्रम है, जिनमें से पहला एक बड़े अक्षर के साथ आना चाहिए:
StreetNameAdj -> Adj<h-reg1> Adj*;
मूल नियमों में, हम एक साथ वर्णनकर्ता और सड़क के नाम एकत्र करेंगे और व्याख्या जोड़ेंगे। हम मानते हैं कि नाम समूह द्वारा व्यक्त की गई सड़क का नाम सड़क विवरणक के बाद आता है। इसे पूंजीकृत किया जाना चाहिए और नाममात्र या StreetNameNoun
मामले में खड़ा होना चाहिए (गैर-टर्मिनल StreetNameNoun
को सौंपे गए StreetNameNoun
श्रृंखला के मुख्य शब्द पर लागू होंगे)। स्ट्रीट डिस्क्रिप्टर की व्याख्या Descr
तथ्य के StreetName
क्षेत्र में और StreetName
स्ट्रीट नाम में की StreetName
।
Street -> StreetDescr interp (Street.Descr) StreetNameNoun<gram="", h-reg1> interp (Street.StreetName); Street -> StreetDescr interp (Street.Descr) StreetNameNoun<gram="", h-reg1> interp (Street.StreetName);
विशेषण द्वारा व्यक्त किए गए सड़क के नाम के टेम्पलेट के लिए, हम एक और विशेष मामले पर विचार करते हैं जब नाम में एक अंक (1 Sovetskaya स्ट्रीट) लिखा होता है। , , . . , , : wff
, wfl
— , wfm
— .
S -> A<wff=/[0-9]+.?/>;
, , 0 99, , . , — — NumberW
.
NumberW_1 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/>; NumberW_2 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/>; NumberW_3 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/>; NumberW -> NumberW_1 | NumberW_2 | NumberW_3;
, -, . , , , .. , . . outgram
, . :
NumberW_1 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/> {outgram=",,"}; NumberW_2 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/> {outgram=",,"}; NumberW_3 -> AnyWord<wff=/[1-9]?[0-9]-?(()|()|()|)/> {outgram=",,"};
StreetNameAdj
: NumberW
, , .
StreetNameAdj -> NumberW<gnc-agr[1]> Adj<gnc-agr[1]>;
, StreetNameAdj
. , , , . ̈ , .. .
Street -> StreetNameAdj<gnc-agr[1]> interp (Street.StreetName) StreetW<gnc-agr[1]> interp (Street.Descr); Street -> StreetNameAdj interp (Street.StreetName) StreetSokr interp (Street.Descr); Street -> StreetW<gnc-agr[1]> interp (Street.Descr) StreetNameAdj<gnc-agr[1]> interp (Street.StreetName); Street -> StreetSokr interp (Street.Descr) StreetNameAdj interp (Street.StreetName);
. , ( ). , , , , . , . not_norm
. , , .
Street -> StreetDescr interp (Street.Descr) StreetNameNoun<gram="", h-reg1> interp (Street.StreetName::not_norm); Street -> StreetDescr interp (Street.Descr) StreetNameNoun<gram="", h-reg1> interp (Street.StreetName::not_norm);
, , address.cxx Street
. , , Input
input1.txt
Input = {File = "input1.txt"} Output = {File = "output.txt" Format = text} Articles = [ { Name = "" } ] Facts = [ { Name = "Street" } ]
, :
परिणामपता |
StreetName | descr |
---|
1 डबरोवस्काया | str |
लोअर मस्लोवका | str |
दुनिया का | एवेन्यू |
1 व्लादिमीरकाया | सड़क |
बोलश्या सेमेनोवस्काया | str |
Komsomol | एवेन्यू |
तैमूर फ्रुंज़े | str |
| |
. dic.gzt, — , , , .. . . .
. , ̈ . — — :
TAuxDicArticle "" { key = "" | "" | ""}
, :
TAuxDicArticle "" { key = {"tomita:address.cxx" type=CUSTOM}}
̈ . , , ̈ — . , , , , , ..
TAuxDicArticle "" { key = { mainword=2 agr=gnc_agr} }
«» — « », , , . , .
, :
TAuxDicArticle "-" { key = "-" key = "" key = "" lemma = "-" }
, , . kwtype
. , , (), , .. , kwtype
. kwset
, . :
Animals -> Word <kwtype="">; Forest -> Word <kwset=["", ""]>;
, ̈ . TAuxDicArticle, , , , . kwtypes.proto. , :
import "base.proto"; import "articles_base.proto"; import "kwtypes_base.proto";
̈ . . message
, , . .
message surname : TAuxDicArticle {}
. .gzt- surnames.gzt, , ̈ surname. , kwtypes.proto, , . , , TAuxDicArticle
surname
:
encoding "utf8"; import "kwtypes.proto"; surname "" { key = "" } surname "" { key = "" } surname "" { key = "" }
, import "surnames.gzt";
। import "kwtypes.proto";
।
, , , : « -». imeni.cxx. , . . , surname
. ̈ , . + “” ( ).
#encoding "utf8" Initial -> Word<wff=/[-]\./>; Initials -> Initial Initial; FIO -> Initials Word<kwtype=surname>; Imeni ->''<gram=", "> FIO;
. :
TAuxDicArticle "" { key = {"tomita:imeni.cxx" type=CUSTOM} }
config.proto ( ) , — . , imeni.cxx input2.txt . . , pretty.html , .
, , . : kwtype
, ̈ , , #include
. #include
— , , . kwtype
. imeni.cxx ̈ , . org.cxx. .
#encoding "utf8" OrgDescr -> '' | '' | '';
« -». kwtype
, «», imeni.cxx. , , kwtype
— . — .
, .
Org_ -> OrgDescr Word<kwtype="">; Org -> Org_ interp (Org.Name);
:
TAuxDicArticle "" { key = {"tomita:org.cxx" type=CUSTOM} }
fact_types.proto:
message Org: NFactType.TFact { required string Name = 1; }
, , ̈ . , “”. , “Org”.
Articles = [ { Name = "" } ] Facts = [ { Name = "Org" } ]
pretty.html. « . . ».
? « .. » imeni.cxx. « _..», .. , org.cxx.

, , (.. kwtype
): , .
. , -, .