वाक्य विश्लेषण (रूसी में, टॉन्सिलिटी विश्लेषण) कंप्यूटर भाषा विज्ञान का एक क्षेत्र है जो ग्रंथों के भावनात्मक रंग का अध्ययन करता है, अधिक विवरण के लिए
Irokez का
लेख देखें । यह मशीन सीखने का एक बहुत महत्वपूर्ण क्षेत्र है: एक बेहतर "समझ" ग्रंथों के लिए, एक भाषा से दूसरी भाषा में अनुवाद के लिए आज रात विश्लेषण की आवश्यकता है।
कार्य की जटिलता उन जटिल भाषाई निर्माणों में निहित है जो लोग अक्सर उपयोग करते हैं। यहां तक कि एक व्यक्ति नकारात्मक वाक्यांश को तुरंत पहचानता नहीं है जैसे "केवल इस पुस्तक में कवर अच्छा है।" इस कंप्यूटर को कैसे प्रशिक्षित करें?
अब तक के सर्वश्रेष्ठ कंप्यूटर कार्यक्रमों में भावनाओं को निर्धारित करने की सटीकता 80% से अधिक नहीं थी। अध्ययन के लेखकों में से एक ने
कहा कि कुख्यात
एंड्रयू एनजी की भागीदारी के साथ स्टैनफोर्ड के वैज्ञानिकों का एक समूह
इसे 85% तक लाने में कामयाब रहा , और एक पुनरावर्ती तंत्रिका नेटवर्क में आगे के प्रशिक्षण के साथ सटीकता 95% तक बढ़ सकती है। ध्यान दें कि 95% - यह पूरी तरह से अभूतपूर्व परिणाम होगा, सभी लोग व्यंग्य को पहचानने में सक्षम नहीं होते हैं और इस तरह की सटीकता के साथ शब्दों की टनकता निर्धारित करते हैं।
तंत्रिका नेटवर्क के प्रारंभिक प्रशिक्षण के लिए, वैज्ञानिकों ने 12,000 फिल्म समीक्षाओं के डेटा सेट का उपयोग किया, जिन्हें एक स्वचालित पार्सर का उपयोग करके अलग-अलग वाक्यांशों में विभाजित किया गया था। परिणाम 215 हजार वाक्यांश था। उनमें से प्रत्येक को सकारात्मक या नकारात्मक टन की डिग्री पर एक रेटिंग के साथ तीन लोगों द्वारा पढ़ा गया था। स्क्रीनशॉट उस इंटरफ़ेस को दिखाता है जो अमेज़ॅन मैकेनिकल तुर्क उपयोगकर्ताओं को पेश किया गया था।

लेखकों ने NaSent (न्यूरल एनालिसिस ऑफ सेंटिमेंट) मॉडल बनाया, जिसे रिकर्सिव न्यूरल टेन्सर नेटवर्क कहा जाता है, प्रत्येक वाक्यांश में अलग-अलग शब्दों को संसाधित करने के लिए, एक संबंध ट्री का निर्माण और विश्लेषण करता है कि प्रत्येक शब्द किस तरह के भावनात्मक रंग को रंगता है और शब्द एक दूसरे को कैसे प्रभावित करते हैं।
ऑनलाइन डेमो में आप सीख सकते हैं कि प्रोग्राम कैसे काम करता है। वह प्रत्येक शब्द, प्रत्येक वाक्यांश और पूरे पाठ के मूल्यांकन के साथ एक
पेड़ बनाता है। कार्यक्रम की विशिष्टता का अनुमान निम्नलिखित दो उदाहरणों से लगाया जा सकता है, जिसमें समान शब्द शामिल हैं, लेकिन एक अलग क्रम में, जो वाक्य के स्वर को बदल देता है - और कार्यक्रम इसे समझता है।
मुहावरे का विश्लेषण "असली लियोन के विपरीत, यह फिल्म अजीब है, लेकिन पसंद करने योग्य है" एक सामान्य सकारात्मक परिणाम (नीला) देता है, संयोजन "अजीब लेकिन सुखद" सही रूप से सकारात्मक के रूप में पहचाना जाता है
एक ही शब्द से एक वाक्यांश, लेकिन एक अलग क्रम में "अतुलनीय लेकिन दिलकश लियोन के विपरीत, यह फिल्म अजीब है" को एक नकारात्मक समीक्षा (सामान्य मूल्यांकन में लाल रंग) के रूप में सही ढंग से पहचाना जाता हैवैसे, एक ऑनलाइन डेमो एक ही समय में एक तंत्रिका नेटवर्क के प्रशिक्षण के लिए एक उपकरण है। प्रत्येक उपयोगकर्ता प्रोग्राम को विश्लेषण के लिए मनमाने ढंग से पाठ की पेशकश कर सकता है - और त्रुटियों को ठीक करके परिणाम को ठीक कर सकता है (बस गलत तरीके से सर्कल पर क्लिक करके)।
मुफ्त कार्यक्रम ऑनलाइन डेमोवैज्ञानिक कार्य (पीडीएफ)
एक तंत्रिका नेटवर्क के प्रशिक्षण के लिए
डेटासेट (6 एमबी)
कार्यक्रम कोड (EMNLP सम्मेलन से पहले प्रकाशित किया जाना है, जो 18 अक्टूबर से शुरू होता है)