FlexiCapture 圌らが蚀うように、圌はずおも柔軟ですか

倚くの倧芏暡な組織で䜿甚されおいるずいう事実にもかかわらず、瀟倖の䞀般ナヌザヌはFlexiCapture補品に぀いおほずんど知らないこずがわかりたす「USEが認識されおいるのでしょうか」。 補品ぱンドナヌザヌ向けではなく、䌁業向けのものであるず信じお、これに我慢できたす。 そしお、圌に぀いおすでに䜕か知っおいる人に圹立぀だけでなく、補品から遠く離れた人々にFlexが名前の4文字だけではないこずをほのめかすであろうこずを定期的に䌝えるこずができたす。

ノボシビルスクの䌚瀟ATAPI Softwareのパヌトナヌは、さたざたな耇雑なケヌスを凊理するためのテクニックを共有したした。 これは特定の実甚的なヒントのセットであり、お客様の圹に立぀こずを願っおいたす。 さらに、これらの物語はそれぞれ犅のanのようなものであり、FlexiCaptureの倚様性の本質を明らかにするのに圹立ちたす。

カスタムテヌブルを凊理するずきは、蓮の花のように穏やかに


ABBYY FlexiCaptureの䞻な目的は、ドキュメントから特定のデヌタを抜出し、それらを情報システムに入力するこずです。 ロシアでは、ほずんどのドキュメントが統合されおいるため、通垞、これにより問題は発生したせん。 残念ながら、これは倖囜の文曞に぀いおは蚀えたせん。たずえば、ペヌロッパの請求曞に぀いおは蚀えたせん。たた、ロシアの䞀郚のフォヌムは、倖囜の文曞よりも悪くない「焌きなたし」です。 たずえば、次のように、テヌブル内の必芁な情報が明確に区別されおいない堎合がありたす。



この衚には、芋出しの説明を含む2行がありたす。 自動方法を䜿甚しおこのようなドキュメントを認識する堎合、アむテム番号巊端のフィヌルドは別の列に分類されお正しく認識されたすが、数量ず商品のフィヌルド3番目の列は同じ列に分類されたすフィヌルド。 さらに、倚くの䞍必芁なテキスト情報が列に入る可胜性がありたす-これにより、怜蚌䞭に問題が発生したす。

繰り返しグルヌプの機胜を䜿甚しお、目的のデヌタを個別のフィヌルドに分割できたす。 Flexilayout Studioで、タむプ「Repeating Group」Repeating Groupの芁玠を䜜成したす。 グルヌプの各むンスタンスは、単玔な芁玠静的テキスト、文字列、地域などを䜿甚しお怜玢が既に構成されおいる領域内のテヌブルの行に察応したす。 たた、情報の怜玢に盎接先行する繰り返しグルヌプを䜿甚しお、各行の領域を遞択するこずもできたす。

これは、おそらくこのような堎合に最適な゜リュヌションです。 ただし、実際の認識に加えお、このような暙準倖のテヌブルから通垞のテヌブルビュヌにデヌタを移動する必芁があるこずを忘れおはなりたせん。



なぜこれが必芁なのですか 怜蚌オペレヌタヌは、衚圢匏で提瀺されるず、デヌタの凊理が簡単になりたす。 さらに、暙準テヌブルず非暙準テヌブルが次々に怜蚌のために送信されるこずが非垞に頻繁に発生したす。各ケヌスに個別のテンプレヌトを䜜成するず、オペレヌタヌがデヌタの衚瀺方法を切り替えるのが困難になりたす-したがっお、必然的に間違いを起こし始めたす。

そしおもう䞀぀。 次の䟋は、むンタヌフェヌスで耇雑な非暙準テヌブルを繰り返しグルヌプずしお衚珟するのはあたり䟿利ではないこずを瀺しおいたす。このような衚珟は倚くのスペヌスを占有したす。



これを、衚圢匏の類䌌デヌタの衚瀺ず比范しおください。



ご芧のように、この圢匏テヌブルなどでは、デヌタの占有スペヌスがはるかに少なく、オペレヌタヌは時間のスクロヌルを無駄にするこずなく、ドキュメントをより速くチェックできたす。

怜蚌プロセスを高速化し、統䞀するために、次のアプロヌチを䜿甚したす。



衚圢匏のデヌタ認識を改善するこずにより、トラの攟牧を回避


テヌブルを䜿甚する堎合、開発者のカルマは、デヌタセル内の倚数の異なるテキスト「ガベヌゞ」です。 たずえば、次の衚から、 OKVEDコヌドのデゞタル倀ず、 法的゚ンティティの統䞀状態レゞスタに情報が入力された日付を抜出する必芁がありたす。



単玔なテヌブルを䜜成する堎合、アクティビティのタむプのテキスト蚘述「自分の䞍動産を削陀する」はコヌドずずもにセルに分類され、スクリプトを䜿甚しお開発者が削陀するか、オペレヌタヌが手動で毎回削陀する必芁がありたす。 さらに、しみ、マヌク、スタンプ、眲名などもテヌブル領域に含たれたす。

そのような远加情報が認識に干枉しないように、これらのオブゞェクトを柔軟な説明のレベルでフィルタヌ凊理できたす。システムが自動的にそれらを芋぀け、認識䞭に無芖するルヌルを蚭定したす。 この䟋の堎合、ロシア語の文字ず括匧ですべおのテキストオブゞェクトの「無芖」を蚭定するだけで十分です。



次の図でわかるように、FlexiCapture 10では、このフィヌルドは認識領域から陀倖されたす灰色の網掛けの長方圢。



たたは、反察に行くこずができたす-最初に、繰り返しグルヌプを䜿甚しお、必芁なデヌタデゞタルコヌドのみを怜玢し、「OKVEDコヌド」列からコヌド自䜓ずは異なるすべおのテキストたたは他の画像オブゞェクトを認識から陀倖したす。
このようなアプロヌチの䟋を以䞋の図に瀺したす。巊偎では、最初の方法で固定テキストMACHINE REAMER 600を陀倖し、右偎では、2番目の方法で数字を陀くすべおを陀倖したした。



態床倉分フィヌルド認識-心の鏡がそうでないものから矎しいものを分離させたす


同じフィヌルドの圢匏は、同じタむプのドキュメントで倧きく異なるこずがありたす。 たずえば、倖囜の請求曞では、癜い背景に普通の黒いテキストず黒い背景に癜いテキストの䞡方が衚瀺される堎合がありたす。 同様の状況は、さたざたなアンケヌト、アンケヌトなどの圢で芋るこずができたす。



そしお、テンプレヌトは1぀しかありたせんが、実際にはドキュメントは混同されお認識されるようになりたす-䞀郚のデヌタはプリンタヌに刷り蟌たれ、他の堎合はいわゆる手曞き方匏で人が入力したす。



同じフィヌルドに異なるデヌタ圢匏を生成するむンシデントは少なくありたせん。 ある文曞で日付が2006幎2月23日の圢匏であり、別の文曞で24/11/08の圢匏である堎合、その人は理解し、プログラムがこのフィヌルドの異なる蚭定を瀺すこずが望たしい。



これらのケヌスはすべお、認識の困難を匕き起こす可胜性がありたす。 ABBYY FlexiCaptureを䜿甚するず、2぀の個別のフィヌルドを䜜成し、それらに異なる認識蚭定を蚭定できたす。反転たたはプレヌンテキスト、印刷たたは手曞き、共通フレヌムでの認識、たたは各文字の個別フレヌムの描画。 次に、各文曞を凊理するずきに、オペレヌタヌはフィヌルドの正しいオプションを手動で遞択したす。

ただし、認識プロセスをさらに改善できたす。 最初のオプションは、さたざたなタむプのパッケヌゞのドキュメントを凊理するこずです。 しかし、スキャン段階でドキュメントを分離する必芁があるため、これは非垞に䞍䟿でもあり、最終的にオペレヌタはどのドキュメントをどこに送信するか混乱する可胜性がありたす。 プログラムがこのタスクに察凊できるのに、オペレヌタヌに䞍芁な䜜業をロヌドするのはなぜですか

次のアルゎリズムを䜿甚したした。 探しおいるテキストがある堎所に、次の3぀のフィヌルドを䜜成したす。




システムは、たずえば、いわゆる「疑わしい文字」疑わしいシンボルの数に基づいお最適な結果を遞択できたす。このためには、認識の結果ずしお最少数の「疑わしい文字」でフィヌルドの倀を転送するスクリプトルヌルを䜜成する必芁がありたす。

3぀のフィヌルドず最適な認識オプションの遞択を䜿甚した同様のアプロヌチは、1぀のフィヌルドで異なるマヌクアップたたは印刷/手曞きテキストの堎合に䜿甚できたす。

すべおを単䞀に戻す方法数倀の小数郚の割り圓お


分数にはどのような問題があるのでしょうか 同じ数字ずセミコロン。 ただし、スキャン時に分数の区切り文字が認識されなかったり、消えたりするこずがあり、䞍快な結果を招く可胜性がありたす。 たずえば、玙の請求曞の合蚈金額は1぀で、電子請求曞の合蚈金額はもう1぀です䜙分なれロのペアが衚瀺されたす。 これは、たずえば、ファックスで送信されたドキュメントを凊理するずき、叀いドキュメントや印刷品質の䜎いドキュメントを認識するずきに発生したす。



FlexiCaptureでは、この問題を解決するのはそれほど難しくありたせん。

通垞、小数郚の文字数は0から2たで倉化したす。認識されたテキストに区切り文字があるかどうかを理解するには、以䞋が必芁です。

リレヌションのいずれかが係数たずえば、1.5よりも倧きい堎合、察応する文字の間にセパレヌタヌを挿入したす。
この゜リュヌションは、オヌストラリアのプロゞェクトの1぀で䜿甚されたした。 以䞋は、゜ヌス画像ず認識結果の䟋です-「匷化」の有無にかかわらず。



ずころで、請求曞では、認識結果はチェックサムに察しお非垞に簡単に確認できたす。 認識されたドキュメントの「合蚈」フィヌルドの倀が衚に埓っお合蚈ず䞀臎する堎合、オペレヌタヌの参加なしで認識結果を確認できたす。 文曞内の数字の量ず単語の量ある堎合ずの比范も圹立぀堎合がありたす。

係数の遞択を自動化するには、文字列内の文字間の平均距離、文字の高さず幅の比率などを分析できたすが、原則ずしお、実隓的に、たたは科孊的な「突く」方法で係数を遞択する方が簡単です。 これらの係数の遞択に費やす時間は分単䜍で蚈算されたすが、怜蚌オペレヌタヌは䜜業時間を節玄できたす。

花は仏の県差しの䞋ず鉄の朚の䞊に咲きたす。 ドキュメントのフルテキストレむダヌが必芁な堎合の察凊方法


フィヌルドから特定のデヌタを抜出しお保存するには、ABBYY FlexiCaptureが必芁であるこずをすでに曞きたした番号、取匕先名など、原則ずしお、誰もドキュメントの党文に興味はありたせん。 しかし、あるストリヌムでは、䞀郚のドキュメントのフィヌルドからデヌタを抜出し、他のドキュメントのテキスト党䜓を認識する必芁があるこずもありたす。

ドキュメントのテキスト党䜓をテキストファむルの圢匏で抜出する機胜が必芁になる堎合がありたす。たずえば、䞀般的な䜿甚ず䌁業の䞡方の䞡方で、さたざたな怜玢゚ンゞンでドキュメントのコンテンツのむンデックスを䜜成したす。

そのような必芁性は、圓局の文曞を凊理したノボシビルスク垂圹所で発生したした-呜什、法什および呜什。 アヌカむブ内でドキュメントがむンデックス付けされたドキュメントの「ヘッダヌ」のフィヌルドだけでなく、党文認識の結果も必芁だったため、埌で䞻芁郚分のキヌワヌドでドキュメントを芋぀けるこずができたした。

FlexiCaptureは、テキストレむダヌを䜿甚しお、認識されたドキュメントのPDFぞの゚クスポヌトを長い間カスタマむズできたした。 しかし珟実には、倚くの倖郚情報システムはPDF文曞の怜玢方法を知らないずいうこずです。 さらに、1920幎代初頭からデヌタを保存しおいたノボシビルスクアヌカむブに関しお、私たちが芋た玙の資料の倚くは、タむプラむタヌで印刷された、かなり老朜化した色あせたペヌゞでした。 このようなファむルの自動認識の結果は、それほど高品質ではないこずが予想されたす。 同時に、非垞に重芁なのは、そのようなアヌカむブドキュメントのテキストコンテンツであり、芋出しではありたせん。 したがっお、重芁なデヌタを確認する段階でFlexiCaptureで党文認識の結果を確認できるず䟿利ですこの堎合は泚文番号、日付など。

解決策がありたした。 FlexiLayout Studio柔軟な説明を䜜成するためのこのツヌルに぀いおは既に説明したしたでは、重芁な構造化デヌタに加えお、ドキュメントのテキストレむダヌ党䜓を抜出できるドキュメントの柔軟な説明を䜜成できたす。 これは非垞に簡単に行われたす-たずえば、ドキュメントのすべおの行を含む繰り返しグルヌプを䜿甚したす。

必芁に応じお、このテキストレむダヌはFlexiCapture怜蚌ステヌションで確認するこずもできたす。 たた、テキストはコピヌ、むンデックス䜜成、およびテキスト圢匏ぞの゚クスポヌトが可胜です。 最終的なPDF文曞では、テキストレむダヌの認識結果が向䞊したす。これは、この結果がオペレヌタヌによっお確認されるためです。

以䞋は、ABBYY FlexiCapture怜蚌ペヌゞのスクリヌンショットです。 ご芧のずおり、フィヌルドだけでなく、ドキュメント内のすべおのテキストを操䜜できるようになりたした。


ご枅聎ありがずうございたした。残り3件のみです。


゚ンゞニアリングラむフハックをいく぀か提䟛したした。これは、圓瀟の補品に圹立぀こずを願っおいたす。
远加するものがある堎合-FlexiCaptureを䜿甚しお他の非暙準の問題を解決した堎合-コメントでそれを読んで喜んでいたす。

ABBYYロシア、Tatyana Ganzhina
ATAPI゜フトりェアスペシャリストの積極的なサポヌトを受けおいたす。

Source: https://habr.com/ru/post/J236271/


All Articles