स्टैनफोर्ड न्यूरल नेटवर्क 85% की सटीकता के साथ पाठ की टनकता निर्धारित करता है, कोड ओपन सोर्स को दिया जाएगा

वाक्य विश्लेषण (रूसी में, टॉन्सिलिटी विश्लेषण) कंप्यूटर भाषा विज्ञान का एक क्षेत्र है जो ग्रंथों के भावनात्मक रंग का अध्ययन करता है, अधिक विवरण के लिए Irokez का लेख देखें । यह मशीन सीखने का एक बहुत महत्वपूर्ण क्षेत्र है: एक बेहतर "समझ" ग्रंथों के लिए, एक भाषा से दूसरी भाषा में अनुवाद के लिए आज रात विश्लेषण की आवश्यकता है।

कार्य की जटिलता उन जटिल भाषाई निर्माणों में निहित है जो लोग अक्सर उपयोग करते हैं। यहां तक ​​कि एक व्यक्ति नकारात्मक वाक्यांश को तुरंत पहचानता नहीं है जैसे "केवल इस पुस्तक में कवर अच्छा है।" इस कंप्यूटर को कैसे प्रशिक्षित करें?

अब तक के सर्वश्रेष्ठ कंप्यूटर कार्यक्रमों में भावनाओं को निर्धारित करने की सटीकता 80% से अधिक नहीं थी। अध्ययन के लेखकों में से एक ने कहा कि कुख्यात एंड्रयू एनजी की भागीदारी के साथ स्टैनफोर्ड के वैज्ञानिकों का एक समूह इसे 85% तक लाने में कामयाब रहा , और एक पुनरावर्ती तंत्रिका नेटवर्क में आगे के प्रशिक्षण के साथ सटीकता 95% तक बढ़ सकती है। ध्यान दें कि 95% - यह पूरी तरह से अभूतपूर्व परिणाम होगा, सभी लोग व्यंग्य को पहचानने में सक्षम नहीं होते हैं और इस तरह की सटीकता के साथ शब्दों की टनकता निर्धारित करते हैं।

तंत्रिका नेटवर्क के प्रारंभिक प्रशिक्षण के लिए, वैज्ञानिकों ने 12,000 फिल्म समीक्षाओं के डेटा सेट का उपयोग किया, जिन्हें एक स्वचालित पार्सर का उपयोग करके अलग-अलग वाक्यांशों में विभाजित किया गया था। परिणाम 215 हजार वाक्यांश था। उनमें से प्रत्येक को सकारात्मक या नकारात्मक टन की डिग्री पर एक रेटिंग के साथ तीन लोगों द्वारा पढ़ा गया था। स्क्रीनशॉट उस इंटरफ़ेस को दिखाता है जो अमेज़ॅन मैकेनिकल तुर्क उपयोगकर्ताओं को पेश किया गया था।



लेखकों ने NaSent (न्यूरल एनालिसिस ऑफ सेंटिमेंट) मॉडल बनाया, जिसे रिकर्सिव न्यूरल टेन्सर नेटवर्क कहा जाता है, प्रत्येक वाक्यांश में अलग-अलग शब्दों को संसाधित करने के लिए, एक संबंध ट्री का निर्माण और विश्लेषण करता है कि प्रत्येक शब्द किस तरह के भावनात्मक रंग को रंगता है और शब्द एक दूसरे को कैसे प्रभावित करते हैं।

ऑनलाइन डेमो में आप सीख सकते हैं कि प्रोग्राम कैसे काम करता है। वह प्रत्येक शब्द, प्रत्येक वाक्यांश और पूरे पाठ के मूल्यांकन के साथ एक पेड़ बनाता है। कार्यक्रम की विशिष्टता का अनुमान निम्नलिखित दो उदाहरणों से लगाया जा सकता है, जिसमें समान शब्द शामिल हैं, लेकिन एक अलग क्रम में, जो वाक्य के स्वर को बदल देता है - और कार्यक्रम इसे समझता है।



मुहावरे का विश्लेषण "असली लियोन के विपरीत, यह फिल्म अजीब है, लेकिन पसंद करने योग्य है" एक सामान्य सकारात्मक परिणाम (नीला) देता है, संयोजन "अजीब लेकिन सुखद" सही रूप से सकारात्मक के रूप में पहचाना जाता है



एक ही शब्द से एक वाक्यांश, लेकिन एक अलग क्रम में "अतुलनीय लेकिन दिलकश लियोन के विपरीत, यह फिल्म अजीब है" को एक नकारात्मक समीक्षा (सामान्य मूल्यांकन में लाल रंग) के रूप में सही ढंग से पहचाना जाता है

वैसे, एक ऑनलाइन डेमो एक ही समय में एक तंत्रिका नेटवर्क के प्रशिक्षण के लिए एक उपकरण है। प्रत्येक उपयोगकर्ता प्रोग्राम को विश्लेषण के लिए मनमाने ढंग से पाठ की पेशकश कर सकता है - और त्रुटियों को ठीक करके परिणाम को ठीक कर सकता है (बस गलत तरीके से सर्कल पर क्लिक करके)।



मुफ्त कार्यक्रम ऑनलाइन डेमो
वैज्ञानिक कार्य (पीडीएफ)
एक तंत्रिका नेटवर्क के प्रशिक्षण के लिए डेटासेट (6 एमबी)
कार्यक्रम कोड (EMNLP सम्मेलन से पहले प्रकाशित किया जाना है, जो 18 अक्टूबर से शुरू होता है)

Source: https://habr.com/ru/post/In197890/


All Articles