
हाल ही में, उपयोगकर्ताओं को विशेष मामलों में, समय-समय पर स्कैनर का सहारा लेते हुए, कैमरों या मोबाइल उपकरणों का उपयोग करते हुए दस्तावेजों की छवियां प्राप्त हो रही हैं। इसी समय, निम्नलिखित नुकसान कैमरों द्वारा प्राप्त छवियों की विशेषता है: ज्यामितीय विकृतियां (हमने
स्वचालित दस्तावेज़ चयन के बारे में
लेख में उनके बारे में बात की), असमान प्रकाश (आप फ्लैश का उपयोग करते समय अक्सर छाया या हाइलाइट देख सकते हैं), इसके विपरीत, एक दोष, धब्बा कम रोशनी में डिजिटल शोर। हम मूल छवि में कुछ परिवर्तनों को लागू करने के लिए इन कमियों से छुटकारा पाने की कोशिश करेंगे ताकि इसके दृश्य को स्कैन के करीब लाया जा सके।
सबसे पहले, हम ध्यान दें कि ज्यादातर मामलों में औसत सिग्नल स्तर के विपरीत एक साधारण वृद्धि काम नहीं करती है, जैसा कि आंकड़े में देखा जा सकता है:

बाईं ओर मूल छवि है, दाईं ओर बढ़ती विपरीतता का परिणाम है।
यह देखा जाता है कि एक अधिक जटिल एल्गोरिथ्म की आवश्यकता होती है जो प्रकाश की असमानता को ध्यान में रखता है। आइए स्थानीय औसत मूल्य के विपरीत एक अनुकूली वृद्धि करने का प्रयास करें। स्थानीय औसत मूल्य एक वर्ग पड़ोस के भीतर प्रत्येक पिक्सेल के लिए गणना की जाती है, जिसके केंद्र में यह है। अक्षरों के अपेक्षित आकार और स्ट्रोक की मोटाई के आधार पर पड़ोस के आकार का चयन किया जाना चाहिए। एल्गोरिदम जल्दी से स्थानीय औसत की गणना के लिए मौजूद है, उदाहरण के लिए, एक एकीकृत मैट्रिक्स (
सारांश क्षेत्र तालिका )। यदि स्थानीय औसत से कंट्रास्ट बढ़ाने से पहले, छवि में शोर स्तर के अनुमान के अनुरूप स्थिरांक को घटाएं, तो साधारण दस्तावेजों के लिए परिणाम काफी संतोषजनक हो सकता है:

बाईं ओर "थ्रेसहोल्ड" (चमक का स्तर) का एक नक्शा है, जिसके सापेक्ष इसके विपरीत वृद्धि होती है। दाईं ओर एप्लिकेशन का परिणाम है।
आप स्थानीय न्यूनतम और अधिकतम के बीच औसत के विपरीत कंट्रास्ट भी बढ़ा सकते हैं।
यदि दस्तावेज़ में फ्लैट खंड, उल्टे पाठ, या उल्टे पाठ शामिल हैं, तो सब कुछ बहुत बुरा हो जाता है, अक्षरों का आकार कई बार भिन्न हो सकता है, और पाठ के बगल में तस्वीरें हो सकती हैं। यहाँ एक जटिल लेआउट पर परिणाम है:

बाईं ओर मूल छवि है, दाईं ओर बढ़ती विपरीतता का परिणाम है।
यह देखा जा सकता है कि तस्वीरों में चित्रों का एक महत्वपूर्ण हिस्सा खो जाता है, पाठ के उल्टे खंड, मूल दस्तावेज़ में इनवर्ट समान नहीं दिखते हैं, बड़े अक्षरों में भरने के बिना रूपरेखा का प्रतिनिधित्व होता है। यह सब इस तरह के दस्तावेजों के बाद के विश्लेषण और मान्यता के लिए अतिरिक्त कठिनाइयों का निर्माण करता है।
कार्य किसी भी तरह से "थ्रेसहोल्ड" के ऐसे नक्शे का निर्माण करना है जिसके संबंध में इसके विपरीत वृद्धि से दृश्य गुणवत्ता में वृद्धि होगी, और जो एक जटिल लेआउट के साथ दस्तावेजों की सुविधाओं को ध्यान में रखेगा। इस तरह के एक थ्रेशोल्ड मैप किसी दस्तावेज़ की द्विपदीय (काली और सफेद) छवि प्राप्त करने के लिए भी उपयोगी होगा। जब छवि में विरोधाभासों की वृद्धि अनन्तता की ओर बढ़ जाती है, तो बाइनरीकरण प्रक्रिया को एक विशेष मामला माना जा सकता है।
प्रस्तावित एल्गोरिथ्म आपको जटिल दस्तावेजों के लिए स्वीकार्य सीमा मानचित्र बनाने की अनुमति देता है। छवि में विभिन्न आकारों की वस्तुओं को ध्यान में रखने के लिए, छवि के पिरामिड विघटन का उपयोग किया जाता है। योजनाबद्ध रूप से, यह प्रक्रिया चित्र में प्रस्तुत की गई है:

विघटन मूल छवि के पैमाने से शुरू होता है। इसे 2x2 पिक्सेल के गैर-प्रतिच्छेदन वर्गों में विभाजित किया गया है, जिनमें से प्रत्येक में हम इसे बनाने वाले 4 पिक्सेल का न्यूनतम, अधिकतम और औसत प्राप्त करते हैं। इसके अलावा, इन मूल्यों से हम तीन चित्र बनाते हैं: मिनीमा, मैक्सिमा और औसत, जो मूल के सापेक्ष क्षैतिज और लंबवत 2 गुना कम हो जाते हैं। हम प्रक्रिया को दोहराते हैं और पिरामिड में परिणामी छवियों को एक स्तर तक ले जाते हैं, जिस पर आकार अभी भी क्षैतिज और लंबवत कम से कम 2 पिक्सेल है।
पिरामिड विघटन का उपयोग करते हुए, हम अपने प्रतिनिधित्व के विभिन्न पैमानों के अनुरूप छवि के प्रारंभिक भागों के लिए मिनीमा, मैक्सिमा और औसत मान प्राप्त करते हैं। विशिष्ट दस्तावेज़ छवियों में अपघटन के 9-12 स्तर होते हैं।
पिरामिड विघटन पर आधारित थ्रेशोल्ड मैप बनाने के लिए एल्गोरिथ्म इस प्रकार है:
- पिरामिड अपघटन के निचले स्तर पर, जहां छवि में केवल कुछ पिक्सेल होते हैं, हम दो में से किसी भी परिकल्पना का उपयोग करके थ्रेशोल्ड मैप को आरंभीकृत करते हैं:
- छवि के इस भाग का स्थानीय औसत मान (अर्थात साधनों के पिरामिड से पिक्सेल की चमक)
- स्थानीय न्यूनतम और अधिकतम के बीच औसत (2 मिनट की अधिकतम सीमा और मिनिमा और मैक्सिमा के पिरामिड से लिया गया औसत)।
- हम विघटन के अगले स्तर पर आगे बढ़ते हैं, थ्रेशोल्ड मैप को 2 बार क्षैतिज और लंबवत रूप से बढ़ते हुए [1 3], [3 1] के साथ प्रक्षेप का उपयोग करते हुए।
- पिरामिड के विघटन के एक नए स्तर पर प्रत्येक पिक्सेल में, हम अधिकतम के पिरामिड से पिक्सेल मूल्य और मिनीमा के पिरामिड से मूल्य के बीच अंतर की गणना करते हैं। यदि यह अंतर शोर दहलीज से अधिक नहीं है, तो हम मानते हैं कि छवि के इस हिस्से में कोई उपयोगी संकेत नहीं है, दोनों पर और इसके बाद के पिरामिड विघटन के स्तर पर। इसलिए, पिछले अपघटन स्तर पर प्राप्त सीमा मूल्य को अपरिवर्तित छोड़ा जा सकता है। अन्यथा, हम दो परिकल्पनाओं, 1 ए और 1 बी के मिश्रण के आधार पर एक नए, समायोजित सीमा मूल्य की गणना करते हैं।
- हम चरण 2 और 3 को दोहराते हैं जब तक कि हम अपघटन के उस स्तर तक नहीं पहुंच जाते हैं जिस पर पिरामिड में पिक्सल के अनुरूप छवि खंडों में अभी भी एक आकार होता है जो छवि में सबसे छोटे अक्षरों को अलग पहचान देता है। आमतौर पर, ऐसे पत्रों का आकार लगभग 6-10 पिक्सेल होता है, यह पिरामिड के तीसरे या चौथे स्तर से मेल खाता है।
नतीजतन, हम एक थ्रेशोल्ड मैप प्राप्त करते हैं, जिसके संबंध में इसके विपरीत वृद्धि से विभिन्न आकारों की वस्तुओं का नुकसान नहीं होता है, इसके अलावा, छवि में समरूप सजातीय क्षेत्रों में शोर नहीं होता है:

बाईं ओर दहलीज का नक्शा है, दाईं ओर इसके विपरीत कंट्रास्ट बढ़ने का परिणाम है।
यह तय करना बाकी है कि रंग चित्रों से कैसे निपटना है, क्योंकि इसके विपरीत वृद्धि अक्सर रंग की हानि होती है। आप चमक के घटक (ग्रे छवि) के लिए कंट्रास्ट बढ़ा सकते हैं, संतृप्त रंग वाले क्षेत्रों को ध्यान में रखते हुए, इसके विपरीत में वृद्धि के गुणांक को कम कर सकते हैं।
हम
एचएसएल के समान ही अपने स्वयं के रंग स्थान का उपयोग करते हैं, लेकिन चमक एल के बजाय, हम वाई घटक के साथ
YCbCr रंग अंतरिक्ष में काम करेंगे।
एक ग्रे छवि के लिए, इसके विपरीत बढ़ता है:
Y '= k (Y - T) + T, जहां T, थ्रेशोल्ड मैप से समान पिक्सेल के लिए चमक मान है, Y और Y' प्रारंभिक और प्राप्त पिक्सेल चमक मान है, k इसके विपरीत वृद्धि गुणांक है, आमतौर पर इसका मान सीमा में होता है। 3 से 6।
उन पिक्सेल के लिए जिनके लिए संतृप्ति S अधिक है, हम अक्सर गलत रंग प्राप्त करेंगे, क्योंकि रंग घटकों के लिए स्वीकार्य मानों की सीमा सीमित है। इसलिए, रंग छवि के लिए, इस सूत्र में गुणांक k को रंग संतृप्ति के विपरीत आनुपातिक बनाया जाना चाहिए। अतिरिक्त सामान्यीकरण गुणांक अनुभवजन्य रूप से चयन करना आसान है।
कमजोर संतृप्ति वाले क्षेत्रों के लिए, इसके विपरीत, छवि में रंग शोर को दबाकर, रंग संतृप्ति को 0 तक कम करना संभव है। विभिन्न अनुपातों में चमक के साथ रंग चैनलों से मूल्यों को मिलाकर यह करना आसान है। कंट्रास्ट बढ़ाने से पहले चैनल R, G, B के हिस्टोग्राम द्वारा छवि में सफेद संतुलन के विपरीत को बढ़ाने के लिए भी उपयोगी है।

बाईं ओर मूल छवि है, दाईं ओर कंट्रास्ट बढ़ने का परिणाम है, रंग संतृप्ति को ध्यान में रखते हुए।