ओवरक्लॉक्ड इंजन - विंडोज के लिए ABBYY FineReader इंजन 10 बहुत तेज है

पिछले हफ्ते हमने OCR एसडीके के अगले संस्करण को जारी किया, जो विभिन्न अनुप्रयोगों में पाठ पहचान तकनीकों को एम्बेड करने के लिए एक उत्पाद है। अब कई सालों के लिए, हमने SDK - FineReader Engine (संक्षिप्तता के लिए जिसे हम आज़ाद करते हैं) के रूप में उपयुक्त तकनीकों को जारी करके मग और टी-शर्ट के प्रचलन के साथ कस्टम बॉक्सेड फाइनरेडा के उत्पादन को पूरक बनाया है।

कटौती के तहत, मैं पिछले संस्करणों की तुलना में नए FRE के सुधारों के बारे में बात करूंगा।

एक नया संस्करण विकसित करते समय, हम खुद को लगभग ओलंपिक लक्ष्य निर्धारित करते हैं - अधिक सटीक, तेज, अधिक कार्यात्मक। हम ठीक-ठाक इंजन के नौवें संस्करण में सटीकता और कार्यक्षमता पर सक्रिय रूप से काम कर रहे हैं, और इस संबंध में हमने महत्वपूर्ण सुधार किए हैं।

दसवें संस्करण में, गति सामने आई। रिलीज के समय तक, हम अधिकांश यूरोपीय भाषाओं के लिए फास्ट मोड (विशेष उच्च गति मान्यता मोड) को 1.5-2 गुना तक तेज करने में कामयाब रहे। इसी समय, गति में वृद्धि गुणवत्ता की कीमत पर नहीं हुई, फास्ट मोड में मान्यता सटीकता औसत रूप से एक ही स्तर पर बनी रही। रूसी भाषा के लिए, गति में औसतन 44% की वृद्धि हुई। ये आंकड़े मुख्य प्रकार के कार्यालय दस्तावेजों वाले पैकेजों पर आंतरिक परीक्षण के परिणामस्वरूप प्राप्त किए गए थे।

छवि
FRE 9.0 (21 अक्टूबर, 2008 रिलीज़) के परिणामों की तुलना में प्रत्येक भाषा की गति में अपेक्षाकृत वृद्धि

मुख्य एशियाई भाषाओं के लिए - चीनी, जापानी और कोरियाई - सटीकता अभी भी मुख्य लक्ष्य थी। इन भाषाओं में दस्तावेज़ों को पहचानने में त्रुटियों की संख्या औसतन 30-40% कम हो गई। इसके अलावा, ग्राफ गति में उल्लेखनीय वृद्धि दर्शाता है।

कई कम स्पष्ट सुधार किए गए हैं।

नया बाइनराइजेशन - काले और सफेद में रंग और स्केल छवियों का रूपांतरण। मान्यता के लिए दस्तावेजों को तैयार करने में यह एक आवश्यक कदम है, यह इस बात पर निर्भर करता है कि क्या उंगली के निशान के साथ झुर्रियों वाली शीट के स्कैन पर एक पीला पाठ को पहचानना संभव होगा। बिनाराइजेशन बहुत बेहतर हो गया है, यह एक कारण है कि गुणवत्ता में तेजी के साथ वृद्धि नहीं हुई।

कैमरा ओसीआर टीएम - फोटो दस्तावेजों पर पाठ मान्यता की गुणवत्ता में सुधार के लिए विशेष परिवर्तनों का एक सेट। उनमें से हैं:

- एक कोण पर शूटिंग के दौरान दिखाई देने वाले ट्रेपोज़ाइडल विकृतियों का सुधार,
- तस्वीरों में तेल का उन्मूलन - एक तिपाई के बिना शूटिंग करते समय एक विशिष्ट दोष,
- आईएसओ को सुचारू करना - कम रोशनी की स्थिति में कैमरे की उच्च संवेदनशीलता पर दिखने वाले फोटो में बहुत सारे रंगीन डॉट्स।

ADRT TM की नई विशेषताएँ सामने आईं- हेडिंग, शैलियों की स्वचालित रचना, चित्रों को कैप्शन की मान्यता, चित्रों को कैप्चर करने और संयोजन करने के लिए एक विशेष शैली सेट करके और एक ही ऑब्जेक्ट में एक विशेष डॉक्यूमेंट (डॉक्यूमेंट मैप) और कंटेंट (टीओसी) की संरचना को बहाल करना।

एक बहुत ही महत्वपूर्ण सुधार उत्पाद की समझ, पहुंच और उसके साथ काम की सुविधा में सुधार कर रहा है। ओसीआर एसडीके एक बहु-कार्यात्मक उपकरण है जिसमें एक विशाल एपीआई है जो आपको बड़ी संख्या में मापदंडों को कॉन्फ़िगर करने की अनुमति देता है।

उपयोगकर्ता विभिन्न कार्यों को हल करते हैं। कोई व्यक्ति प्रासंगिक खोज की संभावना के साथ लाइब्रेरी से पीडीएफ तक पुस्तकों को स्कैन करने के लिए सिस्टम विकसित कर रहा है, कोई व्यक्ति बारकोड पहचान के आधार पर ईडीएमएस में स्वचालित रूप से दस्तावेज़ों को पंजीकृत कर रहा है, और कोई व्यक्ति पहचान फ़ंक्शन का उपयोग करके डेटा निष्कर्षण के लिए अपनी स्वयं की तकनीक विकसित कर रहा है और पाठ सत्यापन।

जाहिर है, विभिन्न कार्यों के लिए - एसडीके की कार्यक्षमता और प्रौद्योगिकी की गुणवत्ता के लिए विभिन्न आवश्यकताएं। एक मामले में, पहले स्थान पर परिणामी पीडीएफ फाइलों की गुणवत्ता और आकार है, दूसरे में - पाठ या बारकोड की मान्यता की सटीकता। इसलिए, विभिन्न कार्यों को हल करने के लिए विभिन्न सेटिंग्स की आवश्यकता होती है।

उत्पाद सेटअप को आसान बनाने के लिए, हमने विशिष्ट समस्याओं को हल करने के लिए इष्टतम पैरामीटर मान वाले कई प्रोफाइल बनाए हैं। यह विचार उत्पाद के मुख्य "दृश्य" में परिलक्षित होता है:

छवि

बस उपयुक्त प्रोफ़ाइल का चयन करें - और आप काम कर सकते हैं।

इसके अलावा, उत्पाद प्रमाण पत्र में काफी सुधार हुआ था, यह अधिक संरचित और पूर्ण हो गया।

हम आशा करते हैं कि यह सब फाइनराइडर इंजन को तेजी से और आसानी से अनुप्रयोगों में एकीकृत करने में मदद करेगा और बेहतर मान्यता परिणाम प्राप्त करेगा।

हमने लिनक्स के लिए FRE10 संस्करण को लगभग एक वर्ष में जारी करने की योजना बनाई है।

शिमोन सेरगिनिन
प्रौद्योगिकी उत्पाद विभाग

Source: https://habr.com/ru/post/In104378/


All Articles