ABBYY FineReader 11のテスト

最近ロシアおよび世界で知られているテキストの光学的認識のためのソフトウェア製品であるABBYY FineReaderの第11バージョンがリリースされました。 このバージョンでは、多くの改善が発表されており、主な重点は生産性の向上とエラーの削減です。 これらの改善は、バージョン10と比較されます。 私は学生時代(2000年代の初めから)からこのプログラムを使用していません。おそらく6つのバージョンを見逃していました。 この数年間、インターネットとモバイル技術はあまり開発されていませんでしたが、多くの時間がありました。 したがって、私は図書館で1時間本を取り、コピーを作成し、都市の一方の端にスキャナーがあるコンピューターに行き、次にもう一方の端にFineReaderのある場所に行き、そして家でWordの認識とフォーマットエラーを修正する準備ができていましたファイル。 今日、ユーザーはより怠andで要求が厳しくなりました。そのため、最新の利用可能な技術と時間の大幅な不足の観点からプログラムを操作することを検討したいと思います。

プロモーションキーのdimonlineとABBYY、およびFineReader 11 CE(Corporate Edition)バージョンのおかげで、いくつかのテストを実行できました。

機能テスト


それで、私は本ガイド「スイス」を取り、iPhoneでいくつかのUターンを特定の角度から撮影しました。 ターンの1つ:



合計で14枚の写真を撮り、それをすぐにラップトップに転送しました。 ノートブックの構成:MacBook Pro 15 "/ Core i7 2.66 GHz / RAM 8GB / Mac OS X Lion、およびFineReader自体はVMware Fusion / Windows 7 x64で起動します(2つのプロセッサコアと2 GBのRAMが割り当てられます)。 (画像)to PDF」、ファイルを選択し、「開く」をクリックし、別のウィンドウに移動して仕事に取り掛かりました。約15分後、特徴的な音がプロセスの終了を通知し、認識されたページを含む完成したPDFファイルが私の目の前に表示されました。ファイル自体のページから:



ただし、テキストは際立っています:



メモ帳では次のようになります。



次に、画像の編集に入り、長方形のページの角の位置を示すことにより、キーストーンの歪みを取り除きました。 残念ながら、私のページにはさらに球面歪みが含まれています。 一般に、ページとその画像は幾何学的に正確に見え始めましたが、テキスト認識は変更されていません。 次に、フラッシュを使用してページの写真を撮り、電話を本の上に厳密に垂直に保持しました。 結果として、私はそのようなページをPDFで持っています:



選択したテキストはメモ帳でよく読みます:



昔ながらの知恵-アクションをレタッチするよりも品質で撮影するか、フィルムセット(光、背景)と機器(メガピクセル、フォーカス)の準備に数分を費やしてから、自動(ここではABBYYが試みた)認識プロセスをお楽しみください。

性能試験


ホームライブラリには、特定のコンピュータープログラムの500ページのマニュアル(251ページのPDFファイル)があり、インターネットで取得されました。 著作権の神々の怒りを招かないように、知的財産の使用条件に従うために、スクリーンショットを挿入しません。 綴じ領域にわずかに球状の歪みがある写真。 たくさんの写真と表。 写真は、基本的に、上記のプログラムのスクリーンショットです。 テスト結果は次のとおりです。

ファイルを開く時間:12分。
認識時間:26分。
Wordのエクスポート時間:2分。
プロジェクトの保存時間:11分。

欠点のうち、注意できるのは1つだけです。ほとんどの写真はテキストブロックとして定義されています。 おそらく、これらの写真には、プログラムのタイトルバーとメニューを含むスクリーンショットがあるためです。 これを行うには、写真付きの各ページに移動し、ブロックのタイプと境界を変更する必要がありました。

ブロックタイプの調整時間:35分。

結論


発表された各改善点について結論を出すことにしました。

ブロックタイプのより正確な定義

実際、より正確ですが、多くの写真はテキストとして定義されていますが、長方形の形状と多くの「非テキスト」があります。 おそらく、プログラムには、感度設定、スケール付きのスライダー、スケールの片側に「むしろテキスト」という表記、そしてもう片側に「写真ではなく」という形の追加機能が必要です。

大規模な(100ファイルを超える)ドキュメントパッケージでのより安定した作業

はい、確かに、多くの並列実行プログラムを備えた仮想マシンでプログラムが実行されていたにもかかわらず、プロセスは安定しており、障害はありませんでした。 忠実のために、500ページのドキュメントの認識が3回実行されました。

歪んだ写真の自動および手動補正の改善

手動修正は、自動変更に気付かない間に機能します。 ただし、歪んだページのテキストは正しく認識されました。 しかし、それ以前(約10年前)のわずかな歪みは必然的にエラーを引き起こしました。

複数ページのドキュメントでの作業の改善

複数ページのドキュメントの操作に特別な問題はありませんでした。

PDFの保存モードの存在:「最高品質」、「スモールサイズ」、「バランスモード」

そのようなモードがありますが、「最高品質」のために十分なディスク容量とコンピューターのパワーがあります。

ドキュメントおよびPDFファイルの画像をODT形式(OpenOffice.org Writer)、DjVu、ePub、fb2に保存および変換する

これは非常に便利で関連する機能です。

スタイルエディター

この機能は、後処理に役立ちます。 認識の目的が印刷ではなく単に読むことである場合、関数の使用はオプションです。

[新しいタスク]ウィンドウには、最も頻繁に必要な機能が表示されます

古代からの多くのプログラムには、このようなウィンドウがあります。 私は常にそれらを閉じて、「このウィンドウを二度と表示しない」にチェックを入れました。 しかし、この場合、私はそれを使用することにし(おそらくMacとiPhoneへの移行が影響を受けました)、気に入ったので、FineReaderではこのウィンドウのみを使用しました。 そして、メニューを登るのが面倒でした。

おわりに


ユーザビリティは非常に現代的な傾向にあり、ソフトウェアを使用するのは楽しいことです。 オフィスワーカーの特定のカテゴリ、それは時間と神経を大いに節約します。 クレームされた改善は本当に機能します。 私が再び学生だった場合、図書館の電話で本の破片を撮影し、自宅で認識します(エッセイと論文のため)。 現在、このような機能は年に1〜2回しか必要ないので、ページネーションを使用したオンラインサービスが役立ちます。

ABBYYチームが消費者を喜ばせ、驚かせ続けることを願っています。

*著作権者の場合:
この記事に記載されている資料は、ソフトウェアの機能と速度を検証するためにのみ認められています。 書籍のページのデジタル画像と同様に、すべての認識結果はその後、回復不能なほど破壊されました。

PS分音記号についてのvmbからの質問について。 このリンクは 、次のギリシャ語のテキストのスクリーンショットです。

Ἐχεκράτης
[57a]αὐτός、ὦΦαίδων、παρεγένουΣωκράτειἐκείνῃτῇἡμέρᾳᾗτὸφάρμακονἔπιενἐντῷδεσμωτηρίλ、υολλο

Φαίδων
αὐτός、ὦἘχέκρατες。

Ἐχεκράτης
τίοὖνδήἐστινἅτταεἶπενὁἀνὴρπρὸτοῦθανάτου; καὶπῶςἐτελεύτα; ἡδέωςγὰρἂνἐγὼἀκούσαιμι。 καὶγὰροὔτε[τῶνπολιτῶν]ΦλειασίωνοὐδεὶςπάνυτιἐπιχωριάζειτὰνῦνἈθήναζε、οὔτετιςξένοςἀφῖκταιχρόνουσυχνοῦ[57B]ἐκεῖθενὅστιςἂνἡμῖνσαφέςτιἀγγεῖλαιοἷόςτἦνπερὶτούτων、πλήνγεδὴὅτιφάρμακονπιὼνἀποθάνοι・τῶνδὲἄλλων οὐδὲνεἶχενφράζειν。

ギリシャ語のみを選択した場合、FineReaderでは次のように認識されました。

Έχεκράτης
[57β]αύτός、ΦΦαίδων、παρεγένουΣωκράτειεκείνητηήμεραητόφάρμακονέπιενέντώδεσμωτηρίλουσάλο

Φαίδων
αύτός、ώΈχέκρατες。

Έχεκράτης
τίοΰνδήέστινάτταεΐπενόάνήρπροτουθανάτου; καίπώςέτελεύτα; ήδέωςγάράνέγώάκούσαιμι。 καίγάροΰτε[τώνπολιτών]ΦλειασίωνούδείςπάνυτιεπιχωριάζειτάνυνΆθήναζε、οΰτετιςξένοςάφΐκταιχρόνουσυχνού[57β]έκεΐθενόστιςάνήμΐνσαφέςτιάγγεΐλαιοΐόςτ「ήνπερίτούτων、πλήνγεδήότιφάρμακονπιώνάποθάνοι・τώνδέάλλων ούδένειχενφράζειν。

ギリシャ語と英語を選択する場合-このように:

Έχεκράτης
[57a]αύτός、ώΦαίδων、παρεγένουΣωκράτειεκείνητηήμεραητόφάρμακονέπιενέντώδεσμωτηρίλουσάλο

Φαίδων
αύτός、ώΈχέκρατες。

Έχεκράτης
τίοΰνδήέστινάτταεΐπενόάνήρπροτουθανάτου; καίπώςέτελεύτα; ήδέωςγάράνέγώάκούσαιμι。 καίγάροΰτε[τώνπολιτών]ΦλειασίωνούδείςπάνυτιεπιχωριάζειτάνυνΆθήναζε、οΰτετιςξένοςάφΐκταιχρόνουσυχνού[57B]έκεΐθενόστιςάνήμΐνσαφέςτιάγγεΐλαιοΐόςτ「ήνπερίτούτων、πλήνγεδήότιφάρμακονπιώνάποθάνοι・τώνδέάλλων ούδένειχενφράζειν。

ギリシャ語のコピーを作成し、発音区別符号を持つすべての文字をそこに追加すると、次のようになりました。

Έχεκράτης
[57ā]αύτός、ώΦαίδων、παρεγένουΣωκράτειεκείνητηήμεραητòφάρμακονεπιενέντωδεσμωτηρίλ;υάάλ;

Φαίδων
αύτός、ώΈχέκρατες。

Έχεκράτης
τίοΰνδήέστινάτταεĩπενόάνήρπρττοûθανάτου; καίπώςέτελεύτα; ήδέωςγάρανέγώάκούσαιμι。 καίγάροΰτε[τώνπολιτών]ΦλειασίωνούδεìςπάνυτιεπιχωριάζειτάνûνΆθήναζε、οΰτετιςξένοςάφîκταιχρόνουσυχνού[57C>]έκεîθενöστιςανήμîνσαφέςτιάγγεΐλαιοîόςτ「ήνπερίτούτων、πλήνγεδήöτιφάρμακονπιώνάποθάνοι-τώνδέ άλλωνούδένεĩχενφράζειν。

Source: https://habr.com/ru/post/J127978/


All Articles