ABBYY FineReader(別名「理論的部分」)の仕組みについての短い話をした後、得られた知識の適用に移りましょう。 そして、はい、猫の下にアザラシはありません:すべてが非常に深刻です。
ユーザーはどのようにドキュメント処理に参加できますか?
車輪を再発明しないために、ヘルプからのシンプルで理解しやすい図から始めます(右の図を参照)。
さて、すべての操作のリストがわかったので、例を見てみましょう-何が間違っているのか、どのように対処するのか。
良好な画像のみが認識されます。
また、画像はあるが、あまり良い画像ではない場合はどうしますか? FineReaderで可能なすべてを改善し、改善できない場合は、画像を再度取得して、問題を解消します。 このトピックは非常に広範囲に及ぶため、FineReaderで直接自動および手動の画像処理ツールを使用して友だちを作る方法についての別の投稿があります。 それまでは、次の場合にイメージがより良く処理されるという観察に限定します。
- (スキャン後)顕著な幾何学的な歪みはありません-2ページ見開きの背での厚い本のページのゆがみまたは顕著な曲がり、
- (前のものに加えて、写真撮影後)非線形の幾何学的歪み(「枕」、「台形」)がなく、領域全体に均一な焦点(好ましくは明るさ)があり、不十分な照明によるノイズがなく、はっきりした照明がないフラッシュから(特に光沢紙の場合)。
ドキュメント/プロジェクトのセットアップ手順
テキストの言語、画像前処理パラメータ、一部の分析および認識パラメータをすぐに示すことが可能であり、必要です。 これは、設定ダイアログのいずれかのタブのスクリーンショットです。
これらの設定およびその他の設定については、ヘルプで詳しく説明されています。分析段階
プログラムは、認識の観点からさまざまなタイプの領域を自動的に識別します。 この段階で、エリアに個別にマークを付け、分析モジュールを見つけたエリアを(必要に応じて)修正できます。
地域を操作するためのツールについてあまり書き過ぎないように、ヘルプ
セクションを参照し、ここで何が「何が良い、何が悪い」(領域に関して)、そして悪い結果を修正する方法を説明します。
異なるタイプのエリアを割り当てる
FineReaderユーザーインターフェースにはいくつかのタイプの領域があります。それらには、非表示のプロパティパネル(「画像」ウィンドウの下部)とコンテキストメニュー(右クリックによる)の異なるオプションがあります。
- 「認識ゾーン」 (デフォルトでは灰色のフレーム)-この名前はユーザーインターフェイスで使用されます。私の意見では、「自動分析の領域」と呼ぶ方が正しいでしょう。 このような領域の目的は、一般的にページのどこで有用なものを探す必要があるかを示すことです。 したがって、後続の分析または分析+認識の結果として、各「認識ゾーン」内で、他のタイプのゼロ以上の領域を見つけることができます。 認識ゾーンは、ブロックテンプレートで特に役立ちます(ヘルプで詳しく説明します)。
正しく描画された認識ゾーンの例トルストイデジタル化プロジェクトの実際の例は、ページの一部に行番号(10の倍数の番号を持つ行に番号が付けられている)があることです。これは結果として必要ではなく、自動分析が列のテキスト領域にこれらの番号を含めた場合、テキストの読み取り/編集が困難になります スキャン後にページがほぼ均等に配置されているか、スキャン後に定性的に切断されている場合、分析前に、ブロックテンプレートをページの目的のグループに適用できます。この場合、認識領域には必要のないページの部分が含まれていません:
テキスト領域とは異なり、認識領域は異なる種類の領域に変わる可能性があり、これもこのプロジェクトで必要だったことを思い出してください。
- テキスト領域-1つ以上の行のテキストが含まれ、各行には論理的に接続されたテキストが含まれているため、1つのブロックで2列を選択することは非常に悪い考えです。 非長方形の形状を持つ場合があります。 自動分析による誤った分析の後、テキストの方向を「反転」に設定または修正する必要が生じることがあります(反転:明るい背景の暗いテキストは「プレーンテキスト」、暗い背景の明るいテキストは「逆」テキスト、デフォルトは「自動」で、ほとんどが修正は不要です)。
これらのパラメーターはブロックごとに設定されるため、1つのブロック内で異なる方向または異なる反転のテキストを選択することは別の悪い考えです。
ページの本文の方向についてヨーロッパ言語では、テキストの通常の向きでは、行は上から下に(テキストが論理的に上から論理的に下に変わるブロックで)読み取られますが、象形文字言語の場合、すべてがはるかに楽しいです-1ページでも一部の領域にはテキストが水平方向に含まれる場合があり、他の列は列にあり、象形文字はこれらのすべての領域で同じ向きを持っています(極東および中東の言語のトピックが興味深い場合-地元の鐘やwについての別の投稿を依頼してください)。
- 表領域 -行と列の区切りが表示され、非表示(部分的またはすべて)の表が含まれます。 テーブルの形状は長方形のみで、各セルも長方形ですが、セルグループまたは行グループの組み合わせを使用すると、非常に複雑なテキスト設定を転送できます。
各セルには、認識可能なテキスト(おそらく空白)または画像を含めることができます。 セル内のテキストを認識したい場合は、特別な認識パラメーターを設定できますが、そうでない場合は「フルセル内の画像」を指定する必要があります。 ところで、テーブルセルの長方形のグループをすぐに選択して、目的のプロパティを一度に変更できます。
テーブルは、特に部分的にまたはどこでも目に見えない区切り文字を使用した自動分析のための複雑なオブジェクトです。 最初の認識または繰り返し認識の前にテーブルのレイアウトとレイアウトを手動で修正することは、認識後-FineReaderまたはターゲットアプリケーションで保存した後でも、誤ったテキスト構造を修正するよりも常に簡単であることが非常に重要です。 したがって、「ワークショップ」セクションでは、自動テーブルレイアウトのエラー修正の実例を数多く紹介します。
- 画像領域 -長方形ではない場合があります。 通常(列テキストを押しつぶす)と背景(列テキストを押しつぶさない)の2種類があり、描画時にわずかな違いがあります(たとえば、背景画像を引き伸ばしても、それで覆われているテキスト領域は削除されません)。
- バーコード領域 —自動検出可能または明示的に指定されたタイプのバーコードが含まれます。 絵のように、長方形でなくてもかまいませんが、これはほとんど必要ありません。
重要な考慮事項
- 認識と合成は、テーブルのテキスト領域またはテキストセルで強調表示されているテキストのフラグメントにのみ表示されます。 テキストがブロックで選択されていない場合、認識されません。
- 同様に、画像の場合-画像の一部が領域外にある場合、または画像全体が複数の領域に分割されている場合-おそらく、処理の結果として問題が発生します。
- FineReaderの認識言語は目盛りに設定されていません-分析から始まる多くのメカニズムに影響します:たとえば、象形文字(中国語、日本語、韓国語)またはアラビア語のテキストには、適切な言語を選択する場合にのみ考慮されない多くの機能があります認識。
近くまたは交差するエリアの相互作用の特徴
次のルールは、プログラムシェルの領域を正しく処理するため、および認識と結果の保存でそれらに何が起こるかを理解するために重要です。