ABBYY लैब्स। प्रश्नोत्तर परियोजना: अवसरों का प्रदर्शन

पिछली श्रृंखला का सारांश:
ABBYY लैब्स? यह क्या है
छात्र प्रयोगशालाओं का विचार बहुत सरल है: हम छात्रों की एक टीम को इकट्ठा करते हैं जो हमारे विशेषज्ञों के मार्गदर्शन में समस्याओं को हल करने में शामिल हैं। एमआईपीटी में, यह वार्षिक पाठ्यक्रम "इनोवेशन वर्कशॉप" के हिस्से के रूप में होता है। परियोजना का लक्ष्य छात्रों को सीखने की प्रक्रिया में उन समस्याओं को हल करने में सक्षम करना है जो एक सामान्य शैक्षणिक प्रक्रिया में वास्तविक से ज्यादा करीब हैं। और एक ही समय में उन्हें "उपयुक्त" वातावरण में विसर्जित करें: जिस वातावरण में विकास होता है वह एक वास्तविक आईटी कंपनी है।
पिछले परियोजनाओं
सूत्र मान्यता
समस्या कथन: छवि छात्र लैब्स ABBYY
समस्या का हल: छवि ABBYY लैब्स - क्या नया है?

परियोजना के बारे में संक्षेप में:
कार्य: पहले से डाउनलोड किए गए पाठ के उस भाग को खोजने में सक्षम होना जो प्राकृतिक भाषा में उपयोगकर्ता के प्रश्न का पूरी तरह से उत्तर देता है।
वर्तमान स्थिति: आप कलम को छू सकते हैं!
भविष्य: हाज़ी। दर्शकों की प्रतिक्रिया और सॉल्वेंसी पर निर्भर करता है।
इसलिए: पास मत करो!

कटौती के तहत, एक डेमो उदाहरण के लिए एक कड़ी, और सामान्य तौर पर, पिछले भाग की एक तार्किक निरंतरता।


कार्य सिद्धांत
जिन ग्रंथों के साथ आप काम करने की योजना बनाते हैं, वे पहले से डाउनलोड किए जाते हैं। इन ग्रंथों को संसाधित करने के बाद, प्राकृतिक भाषा में उन पर सवाल पूछना संभव हो जाता है और, महत्वपूर्ण रूप से, उत्तर प्राप्त करते हैं :)। इस व्यवसाय के लिए एक एपीआई पहले से ही तैयार है। लोग देखते हैं कि यह सेवा बहुत सी पाठ्य सूचनाओं वाली साइटों पर उपयोग के लिए अच्छी हो सकती है, उदाहरण के लिए, मंचों पर, चिकित्सा और कानूनी निर्देशिकाओं में। अगर habraudly आवेदन का एक नया क्षेत्र प्रदान करता है - डेवलपर्स केवल खुश होंगे।

जब तक हम अंग्रेजी और रूसी के बारे में बात करते हैं तब तक भाषा की बाधा कोई समस्या नहीं है (इस अर्थ में कि आप रूसी पाठ पर अंग्रेजी में एक प्रश्न पूछ सकते हैं और इसके विपरीत)। भविष्य में, भाषा तंत्र के लिए "देशी" लोगों की सूची बढ़ेगी।

लोगों को इंजन के संगठन के बारे में बात करने के लिए बहुत कहा गया था । मैं उनके विवरण में आधे से थोड़ा कम समझ पाया (पढ़ें - कुछ भी नहीं), इसलिए मैंने इसे बिगाड़ने के तहत रखा
भयावह शब्द: दीर्घवृत्त, रूपात्मक वर्णन, वृक्ष, ग्राफ
  1. वर्ड प्रोसेसिंग
    • Compreno से xml के रूप में पार्सिंग पाठ प्राप्त किया
    • पाठ का प्रत्येक वाक्य एक पेड़ है (आमतौर पर एक जंगल, यदि वाक्य जटिल है)। इस तरह के पेड़ का एक नोड एक वाक्य में एक शब्द (या एक वाक्यांश है, उदाहरण के लिए, जब एक वाक्य में वाक्यांशवैज्ञानिक इकाई है)। इसके अलावा, प्रत्येक शीर्ष पर, दिए गए शब्द का रूपात्मक विवरण संग्रहीत किया जाता है (यानी मामला, संख्या, लिंग, आदि)। दो जुड़े हुए पेड़ के कोने एक वाक्यांश हैं।
    • सामान्य मामले में, एक वाक्य में कई पेड़ होते हैं (उदाहरण के लिए, एक जटिल वाक्य के दो भाग), और इसलिए प्रत्येक वाक्य के लिए एक विशुद्ध रूप से तकनीकी इकाई बनाई जाती है जो किसी भी जानकारी को नहीं लेती है जिसके लिए वाक्य से पेड़ निलंबित हैं। और वे, बदले में, पाठ की जड़ को निलंबित कर दिया जाता है। इस प्रकार, किसी भी पाठ के लिए हमें एक पार्स ट्री मिलता है।
    • फिर नॉन-वुड लिंक ( अनाफोरा और एलिप्सिस ) जोड़ें
  2. प्रश्न के लिए एक समान पेड़ बनाया गया है।
  3. आगे एक खोज है
    • हम पाठ के सभी वाक्यों के माध्यम से चलते हैं और इस वाक्य के सभी नोड्स के साथ प्रश्न से सभी नोड्स की तुलना करते हैं। तुलना उनके रूपात्मक और अर्थ संबंधी विवरणों पर आधारित है। इस तरह की तुलना हमें न केवल पर्यायवाची शब्द, बल्कि विभिन्न भाषाओं के समान शब्दों (समान अर्थ वाले शब्द) की पहचान करने की अनुमति देती है। और तुलना का परिणाम एक जोड़ी में नोड्स की सामग्री का समानता गुणांक है।
    • अगला, एनाफॉरिक कनेक्शन संसाधित किए जाते हैं, और कुछ जोड़े के लिए (वाक्य से नोड - प्रश्न से नोड), गुणांक पुनर्गणना किया जाता है।
    • प्रश्न के सभी नोड्स की तुलना प्रस्ताव के सभी नोड्स के साथ फिर से की जाती है, लेकिन अब बच्चों के संबंध में। नतीजतन, नोड्स की प्रत्येक जोड़ी संरचनात्मक समानता का गुणांक प्राप्त करती है (यह संरचना में उपप्रकारों की समानता को दर्शाती संख्या है)।
    • अगले चरण में, पूरे उपप्रकार पहले से ही तुलना कर रहे हैं। शब्दों के साथ उपप्रकारों की तुलना करने की प्रक्रिया का वर्णन करना मुश्किल है, तो आइए एक सादृश्य आकर्षित करने की कोशिश करें (काफी पर्याप्त नहीं)। चलो सड़कों के दो नेटवर्क हैं जो पेड़ हैं। हम प्रत्येक नेटवर्क में एक नोड का चयन करते हैं और वहां जुड़वा को रखते हैं जो उसी (या बहुत समान) सड़कों पर चलना पसंद करते हैं। और, वास्तव में, हम उन्हें कुल समानता की गणना करते हुए, उन पर चलने के लिए कहते हैं। शुरू में उन्हें अलग-अलग जोड़े नोड्स में रखकर, आप उस जोड़ी को शुरू कर सकते हैं जिसमें से कुल समानता सबसे बड़ी होगी। यह संख्या इस वाक्य के लिए अपने वजन के रूप में याद की जाती है।
    • जवाब के रूप में, सबसे अधिक वजन वाले प्रस्तावों का चयन किया जाता है।


अन्य महत्वपूर्ण बातें
स्पीड। यह बिजली की गति से काम नहीं करता है, लेकिन इसके अपने कारण हैं: इस सभी अर्थव्यवस्था को अमेज़ॅन क्लाउड में सबसे सस्ते उदाहरण (जो परीक्षण उद्देश्यों के लिए स्वतंत्र है) में रखा गया है। इसलिए, गति को दोष न दें!

प्रतिक्रिया खोज की गुणवत्ता।
साइट के माध्यम से आप सिस्टम की राय में सबसे अधिक प्रासंगिक उत्तर देख सकते हैं। हालाँकि, जैसा कि यह कठोर वास्तविकता में होता है, हमेशा "कंप्यूटर" की राय में और मनुष्य की राय में सबसे अधिक प्रासंगिक उत्तर एक ही बात नहीं है। इसलिए, एपीआई के उपयोगकर्ताओं के लिए कई संभावित उत्तर प्रासंगिकता को ध्यान में रखते हुए वापस किए जाएंगे, और सेवा के मालिक के लिए यह जानना बेहतर होगा कि उन्हें कैसे प्रदर्शित किया जाए। हालाँकि, आप उन्हें अब xml के रूप में देख सकते हैं, एक लिंक जो सीधे शब्दों में "सभी उत्तरों के साथ फ़ाइल" के नीचे स्थित है।

सुधार के अवसर । किसी ज्ञात विषय के साथ सामग्री की खोज के मामले में, सेवा को इसे ध्यान में रखने के लिए कॉन्फ़िगर किया जा सकता है, जिससे खोज की प्रासंगिकता बढ़ जाएगी। जैसा कि पहले ही उल्लेख किया गया है, गति को बादलों में अधिक शक्तिशाली उदाहरण प्रदान करके बढ़ाया जा सकता है।

सबसे महत्वपूर्ण बात । लिंक, यहाँ यह है !
आक्टंग! फिलहाल, उत्तर को 3 ग्रंथों में से एक के लिए खोजा जा सकता है (नए लोगों को लोड करना, हबल प्रभाव से बचने के लिए अक्षम है), जिनमें से

मैं हैबर उपयोगकर्ताओं की राय जानना चाहूंगा: मैं इस सेवा का उपयोग कहां कर सकता हूं? खैर, आइए आलोचकों, आलोचकों :)

UPD: वैसे, मुझे यहाँ याद आया कि nafany121 बिना किसी आमंत्रण के ग्रस्त है, टिप्पणियों का जवाब भी नहीं दे सकता। और वह, वैसे - इस चीज के डेवलपर्स में से एक है। ठीक है, आप समझते हैं कि मेरा क्या मतलब है? धन्यवाद, हेडमैटर्स

Source: https://habr.com/ru/post/In161245/


All Articles