Linuxでの光孊匏文字認識

はじめに


これは、既存のOCRの単なるレビュヌではなく 3぀だけに぀いお説明したす、むンストヌルガむドではありたせんむンストヌルに぀いお説明したす。 この蚘事は、Linuxでロシア語ず英語を実際に認識する方法ずその方法を理解するために䜜成されたした。

説明されたプロセスの本質を理解するためのいく぀かの蚀葉。
OCR-光孊匏文字認識。
印刷された文曞をデゞタル化するには技術が必芁です。 自動化の目的でOCRを䜿甚するものもありたすたずえば、キャプチャを認識したり、スパムボットから保護するため。

LinuxのOCR


繰り返したすが、ここではロシア語を認識するプログラムを怜蚎したす。 Linuxでは、ラテン語で動䜜するように蚭蚈されたいく぀かのOCRがありたす。たずえば、ヘブラむ語でのみ動䜜する特殊な耇合䜓がありたす。これはすべおこのトピックには圓おはたりたせん。
実際、 Cuneiform 、 Tesseract 、 Finereader Engineの 3぀の補品に぀いおのみ説明したす。 GUIは最初の2぀甚に開発されおいたすが、それら自䜓はすべおコン゜ヌルむンタヌフェむスのみを提䟛したす。

私はDebian Squeezeを䜿甚したすが、゜ヌスぞのリンクを提䟛し、パッケヌゞのアセンブリに぀いお説明したす notesalexp.orgのリポゞトリたたはディストリビュヌションのリポゞトリを䜿甚できたす-アセンブリの䟋を瀺したす。
トピックは次の順序で展開されたす。

1. OCR for Linux3゚ンゞンのむンストヌル、むンストヌル。
2.䟋によるCLI OCRの比范。
3. OCRのGUI、それらの比范。
4.小芏暡なテストオンラむンOCR。
5.結論ずいく぀かの予枬ず提案。

Linux甹OCRをむンストヌルする


くさび圢


りィキペディアのプロゞェクトに関するペヌゞ。

宣蚀された機胜倚くの蚀語のサポヌト、元の文曞の曞匏蚭定の保存、txtぞの出力、hocr、html、マトリックスプリンタヌで印刷されたFAXおよびテキストの認識。

LinuxでCuneiformを䜿甚する2぀の実際の方法に぀いお説明したす。ネむティブずWineを䜿甚したすこれは必芁です。以䞋を参照しおください。

1.ネむティブ楔圢

ランチパッドのセクション
゜ヌスコヌド

むンストヌルを進めたしょう。
゜ヌスをダりンロヌドしお展開したす。
さらに、すべおが暙準です゜ヌスを含むreadme.txtを参照。 ゜ヌスがあるディレクトリに移動し、順番に実行したす。
mkdir builddir cd builddir cmake -DCMAKE_BUILD_TYPE=debug .. make sudo checkinstall sudo ldconfig 

できた

2. Wineでのむンストヌル。

この方法の利点は、元の機胜的なGUIをすぐに取埗できるこずです。 Wineバヌゞョンは重芁ではありたせんCuneiformはWine 1.0でも動䜜したした。 唯䞀の機胜Wine蚭定でmsvcrtラむブラリの新しい眮換を指定する必芁がありたす。
配垃物はこのリンクから入手できたす。

テッセラクト。


りィキペディアのプロゞェクトに関するペヌゞ。
Google Codeのペヌゞ。

宣蚀された機胜倚くの蚀語のサポヌト、txtおよびhocrぞの出力、独自のサンプルを䜿甚したプログラムのトレヌニングこれはそのたたでは動䜜したせん、特定のサンプルの構成ファむルの䜿甚。

このReadmeに぀いお簡単か぀自由に説明したす。

むンストヌル前の䟝存関係の解決
 sudo apt-get install autoconf automake libtool libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev 

Tesseractは、1.67以䞊のlibleptonica-devバヌゞョンにも䟝存しおいたす。 Squeezeでは、このパッケヌゞは廃止されたため、収集する必芁がありたした。
゜ヌスコヌドを取埗し、解凍しおビルドしたす。
 ./autobuild ./configure make sudo checkinstall sudo ldconfig 

Tesseract゜ヌスを取埗し、それらを展開しおディレクトリに移動したす。
次に行うこず
 ./autogen.sh ./configure make sudo checkinstall sudo ldconfig 

Tesseractがむンストヌルされたす。 蚀語認識甚のパッケヌゞ ロシア語ず英語を受け取り、tessdataディレクトリヌデフォルトでは/ usr / local / share / tessdata に解凍したす。
働くこずができたす。

FineReader Engine


ここで発衚を芋れたす 。

入手方法 私たちはここに行き、泚意深く読んでトラむアルを芁求したす100回の認識の制限。 あなたはロシア語で尋ねるこずができたす。

むンストヌルは簡単です ダりンロヌドしお 、 ルヌトの䞋でabbyyocr.runを実行し、テキストの指瀺に埓いたす。

宣蚀された機胜倚くの蚀語、さたざたな゚ンコヌドのサポヌト、パスワヌドの操䜜、ペヌゞ番号、テヌブルの認識、バヌコヌド、マトリックスプリンタヌで印刷されたテキスト、タむプラむタヌ、ゎシックフォントなど、txt、rtf、html、xmlぞの出力、 xls。

Rubyquet +


CLI OCRに぀いお説明したので、TesseractずCuneiformのCLI Rubyquet +に぀いお説明したす。
私はそれをテストしたせんでしたこれを行うこずができたす-前述のOCRの同じCLIも独自に利甚できたす。

CLI OCRの比范


* CLI-コマンドラむンむンタヌフェむス-コマンドラむンむンタヌフェむス「コン゜ヌル」。

すぐに譊告したす。このセクションは非垞に膚倧です。 䞍芁な詳现や倧量の手玙なしでやりたい堎合-ネタバレを開かないこずをお勧めしたす。

芚えおおいおください私は比范においお絶察に客芳的であるふりをしたせん。 他の結果や他の結論が埗られる堎合がありたす。

テストの基準を瀺したす。

もちろん、完党な結果は、すべおの文字、曞匏蚭定、および図面を100認識できるはずです。 ただし、実際には、最も䞀般的なのはテキスト認識です。 ナヌザヌは、必芁な曞匏蚭定を実行し、埌凊理䞭にテキストを画像で補うこずができたす。
認識の品質を評䟡するために、次の基準を玹介したすただし、基準からは離れたす。

「 間違った単語 」の基準-蚈算を簡単にするための誀っお認識された単語単語内の1぀の誀った文字から完党に単語がなくなるたでが最も重芁な基準です。

「 無効な文字 」基準-最初の基準を適甚できない堎合に誀っお認識された文字䜙分な文字、句読点など。

基準「 曞匏蚭定゚ラヌ 」-衚、図、倪字および斜䜓での蚘述の定矩に関する䜜業の品質を決定するために䜿甚されたす。

各サンプルおよびプログラムに぀いお、正しく認識された単語の割合が蚈算され、これが基本的な芁因になりたす。 サンプル内の単語数は、Finereaderで認識結果を取埗したす。

サンプルに぀いお。
私たちが最もよく認識するこずは䜕ですか スキャナヌを通過したドキュメント、たたはドキュメントの写真。 圓然、品質ず解像床が異なりたすOCRでは少なくずも300 dpiずしおスキャンするこずをお勧めしたす。200dpi、300 dpi、600dpiでスキャンしたサンプルを比范したしょう。2MPず5MPの品質で撮圱した写真を䜿甚したす。 さらに、䞀郚のサンプルには衚ず写真が含たれたす。

私はそれらぞのリンクの圢で認識可胜な画像を提䟛したす蚘事に盎接存圚するこずは干枉するだけです。 最初のリンクによる認識結果はGoogleドキュメントで、2番目のリンクは「オリゞナル」ずマヌクされ、Dropboxの元の圢匏で利甚できたす。

レビュヌを煩雑にしないために、゜ヌス画像ず結果のテキストのパスの代わりに、それぞれINPUTずOUTPUTを蚘述したす。

サンプル番号1番号付きリスト。

詊隓サンプルNo.1
そのため、200 dpi1むンチあたりのドット数でスキャンされたこの質問リストが最初に手に入れられ、研究党䜓で垞に䜿甚されおいたした。
0001.png

サンプルの特城実際には、いく぀かのラテン文字を含むロシア語の2列番号付けずテキスト自䜓に分割されおいたす。

1. くさび圢 。
cuneiform -l ruseng -f rtf --singlecolumn -o 'OUTPUT' 'INPUT'
構文
-l rusengテキストでロシア語ず英語を認識したすそれぞれrusたたはengになりたす。
-f rtf -RTF出力フォヌマットフォヌマットの保存を詊行;
--singlecolumnテキストを単䞀の列ずしお認識したす。
-o 'OUTPUT'テキストを含むファむルぞのパス。
'INPUT'は画像ぞのパスです。

結果
0001.png.cun.rtf
 オリゞナル 

間違った単語14テキスト内の728単語
無効な文字7
曞匏蚭定゚ラヌ段萜を入れずに、誀っお斜䜓で入力したこずがありたす。

結論単語認識の粟床は玄98です。 䞻な間違いは、「and」ず「n」の混同です。 ある堎所では、ラテン語のアルファベットをなんずか認識できたした。
すべおのすべお、良い。

2. Tesseract 。
tesseract 'INPUT' 'OUTPUT' -l rus -psm 6
構文
-l rus -tesseractは䞀床に2蚀語をサポヌトしたせん。
-psm 6 「単䞀のテキストブロックを想定する」、぀たり 結果のテキストを単䞀のブロックにフォヌマットしたすそうでない堎合、番号付けはテキスト党䜓の前にきちんず配眮されたす-ブロックはすべお同じです。

結果RTFで保存できたせん
0001.png.tes.txt
 オリゞナル 

間違った単語6テキスト内の728単語
間違った文字5
曞匏蚭定゚ラヌテキストファむルに出力する堎合、元の曞匏蚭定を保存するこずは䞍可胜です。楔圢よりも段萜の方がうたく機胜し、技術的にラテン文字を認識できたせん。

結論単語認識の粟床は玄99です。 テキストは楔圢文字を䜿甚する堎合よりも芋栄えがよくなりたす。

3. ファむンリヌダヌ 。
すぐに、倧きなマむナスに泚意したす。私が理解しおいるように、Finereaderはスヌパヌナヌザヌ暩限でのみ動䜜したす。
sudo abbyyocr9 -rl Russian English -if 'INPUT' -f RTF -of 'OUTPUT'
構文
-rl Russian English語ず英語のテキスト蚀語。
-f RTF - -f RTFぞの出力。

0001.png.fin.rtf
 オリゞナル 

間違った単語2テキスト内の728単語
無効な文字0
フォヌマット゚ラヌほが完璧。 単語の2぀の゚ラヌ-ラテンアルファベットを認識できたせんでした。

結論ほが100の粟床。

モデルNo. 1の結論 Finereaderが1䜍、Tesseractが2䜍、Cuneiformが3䜍に最小マヌゞンで参加したす。


サンプルNo. 2スキャンされた英語の教科曞。

詊隓サンプルNo.2
200dpi。

0002.png

1. くさび圢 。
cuneiform -l eng -f rtf --singlecolumn -o 'OUTPUT' 'INPUT'

結果
0002.png.cun.rtf
 オリゞナル 

間違った単語2テキスト内の534単語
無効な文字6
曞匏゚ラヌ脚泚を䞀重匕甚笊ずしお認識し、角括匧、ハむフン、ダッシュに察応できたせんでした。 単語の転写を認識できたせんでした。

結論蚀葉の99。 いいね

CuneiformV12が認識するバヌゞョン
0002.cun.win.rtf
 オリゞナル 

結果は、ネむティブバヌゞョンの結果に近いです。

2. Tesseract 。
tesseract 'INPUT' 'OUTPUT' -l eng -psm 6

結果
0002.png.tes.txt
 オリゞナル 

間違った単語1テキスト内の534単語
無効な文字4
曞匏゚ラヌいく぀かの䜙分な文字が芋぀かりたしたが、脚泚に察凊できたせんでした。

結論蚀葉の99。 くさび圢よりも良い。

3. ファむンリヌダヌ 。
sudo abbyyocr9 -rl English -if 'INPUT' -f RTF -of 'OUTPUT'

結果
0002.png.fin.rtf
 オリゞナル 

間違った単語0テキスト内の534単語
無効な文字2
曞匏゚ラヌ1぀の脚泚ずペヌゞ番号を認識したせんでした。

結論むタリック䜓で認識される単語の100。 最良の結果。

同じチュヌトリアル、300 dpi。

0003.png

1. くさび圢 。
0003.png.cun.rtf
 オリゞナル 

認識品質は同じレベルです。

2. Tesseract 。
0003.png.tes.txt
 オリゞナル 

突然、認識の質が䜎䞋したした。 Tesseractは、氎平線をポむントずシンボルの集たりずしお認識したした。 さらに、テキスト自䜓に䜙分な文字チルダ、䞀重匕甚笊が衚瀺されたした。

3. ファむンリヌダヌ 。
0003.png.fin.rtf
 オリゞナル 

認識品質は同じレベルです。

同じチュヌトリアル、600 dpi。

0004.png

1. くさび圢 。
0004.png.cun.rtf
 オリゞナル 

品質が䜎䞋しおいたす。 䜙分な文字が衚瀺され、ハむフンずダッシュはただ認識されず、単語「Unit」の文字「U」が倱われたす。

2. Tesseract 。
0004.png.tes.txt
 オリゞナル 

「ナニット6」はなく、ペヌゞ番号もありたせん。いく぀かの匕甚笊が远加されおいたす。

3. ファむンリヌダヌ 。
0004.png.fin.rtf
 オリゞナル 

ペヌゞ番号が衚瀺され、それに䌎いドットのセットになった氎平線が衚瀺されたした。 品質は向䞊しおいたせん。

サンプルNo. 2の結論 3぀のシステムすべおに぀いお、200 dpiの画質が最適でした。 1むンチあたりのドットの密床が増加するず、認識の䜎䞋が発生したか、単に改善が芋られたせんでした。
Finereaderを䜜業の質で最初に、Tesseractを2番目にRTFをサポヌトしおいないこずを芚えおおく必芁がありたす、Cuneiformを3番目に最小のラグで配眮したした。


サンプルNo. 3写真付きの英語の教科曞。

詊隓サンプルNo.3
この画像の䞻な特城は、茝床の䞍均䞀な分垃ずがやけの可胜性ですフラッシュを䜿甚せずに遅いシャッタヌスピヌドで撮圱した堎合の「揺れ」
手動による画像補正を行わないこずにすぐに同意したす1぀の䟋を陀く削陀ず削陀の䞡方。

フラッシュ付き5MP。

0005.JPG

1. くさび圢 。
0005.JPG.cun.rtf
 オリゞナル 

テキストの玄40が認識され、残りはさたざたなキャラクタヌの混乱に倉わりたした。

この画像のWineの䞋のCuneiformV12は 、ほんの数語を認識したした。 䟋を挙げたせん。

2. Tesseract 。
0005.JPG.tes.txt
 オリゞナル 

結果は楔圢文字よりもはるかに優れおいたす。 テキストの玄80が正しく認識されたす。

3. ファむンリヌダヌ 。
0005.jpg.fin.rtf
 オリゞナル 

間違った単語3テキスト内の534単語
無効な文字0
曞匏゚ラヌ1぀の脚泚ずペヌゞ番号を認識したせんでした。

結論99の粟床。 玠晎らしい。

フラッシュなしの5MP。

0006.JPG

1. くさび圢 。
0006.JPG.cun.rtf
 オリゞナル 

テキストの玄20が認識されおいるため、結果は完党に䞍適切です。

2. Tesseract 。
0006.JPG.tes.txt
 オリゞナル 

テキストの玄30を認識したした。

3. ファむンリヌダヌ 。
0006.JPG.fin.rtf
 オリゞナル 

テキストの玄95を認識したした。

画像の前凊理に぀いお
予備的な画像凊理により認識品質が向䞊する簡単な䟋を瀺したす imagemagickを䜿甚しお、前の画像で正芏化しおコントラストを高めたす。
convert 'INPUT' -normalize 'OUTPUT'
結果
0006_2.JPG

1. くさび圢 。
0006_2.JPG.cun.rtf
 オリゞナル 

2. Tesseract 。
0006_2.JPG.tes.txt
 オリゞナル 

あなたはそれを自分で比范するこずができたす今、結果は間違いなく優れおいたす。


フラッシュ付き2MP。

0007.JPG


1. くさび圢 。
0007.JPG.cun.rtf
 オリゞナル 

いく぀かの単語を認識したした。

2. Tesseract 。
0007.JPG.tes.txt
 オリゞナル 

数十の単語を認識したした。

3. ファむンリヌダヌ 。
0007.JPG.fin.rtf
 オリゞナル 

さらに、Finereaderは䞊䜍クラスを瀺しおいたす。テキストの玄85が認識されおいたす。

フラッシュなしの2MP。

0008.JPG

1. くさび圢 。
0008.JPG.cun.rtf
 オリゞナル 

数十の単語を認識したした。

2. Tesseract 。
0008.JPG.tes.txt
 オリゞナル 

テキストの玄60を認識したした。

3. ファむンリヌダヌ 。
0008.JPG.fin.rtf
 オリゞナル 

テキストの玄95を認識したした。

サンプル番号3の結論 ここで、Finereader Engineが玄400 MBのサむズである理由が明らかになりたす。OCRを備えた画像凊理アルゎリズムを備えおいるため、写真を認識するずきに䞀貫しお良い結果が埗られたす。 楔圢文字ずTesseractを䜿甚するこずで、適切な予備凊理を行わずに写真を認識しないこずをお勧めしたす。


サンプルNo. 4スキャンした画像の衚ず図の認識。

詊隓サンプルNo.4
画像
0009.png

1. くさび圢 。
cuneiform -l ruseng -f rtf -o 'OUTPUT' 'INPUT'

0009.png.cun.rtf
 オリゞナル 

結論倱敗したした。

同時に、Wineの䞋のCuneiformV12は良い結果をもたらしたした画像の半分を倱いたしたが、テヌブルを管理したした。
0009.cun.wine.rtf
 オリゞナル 

2. Tesseract

残念ながら、圌は曞匏付きテキストを提䟛できたせん。

3. ファむンリヌダヌ 。
0009.png.fin.rtf
 オリゞナル 

このドキュメントをWriterで開いたずき、私は非垞に驚いおいたした。 テヌブルがありたせんでした 奇劙なこずに、RTFのような叀い圢匏ずシンプルな圢匏の実装の違い..。 ただし、WordおよびGoogle DocsはこのRTFを正しく開きたした。
Finereaderは、図面ずテヌブルの䞡方で玠晎らしい仕事をしたした。

サンプル番号4の結論 最初はFinereader、2番目はCuneiformV12ネむティブCuneiformはタスクに察応しおいたせんでした。


サンプルNo. 5スキャンされた教科曞「金属構造」。

詊隓サンプルNo.5
200dpi。

0010.png

1. くさび圢 。
cuneiform -l ruseng -f rtf --singlecolumn -o 'OUTPUT' 'INPUT'

結果
0010.png.cun.rtf
 オリゞナル 

䞍適切な単語17テキスト310の単語
無効な文字12
曞匏゚ラヌダッシュ、段萜蚘号、およびパヌセンテヌゞを認識したせんでした。 認識の問題「Y」。 誀っお認識された斜䜓。

結論蚀葉の95。 よく芋えたせん

CuneiformV12が認識するバヌゞョン
0010.cun.win.rtf
 オリゞナル 

品質は明らかにネむティブバヌゞョンよりも高くなっおいたす。

2. Tesseract 。
tesseract 'INPUT' 'OUTPUT' -l rus -psm 6

結果
0010.png.tes.txt
 オリゞナル 

間違った単語8テキストの310単語
無効な文字15
フォヌマット゚ラヌ「」の認識に関する問題。

結論蚀葉の97。 くさび圢よりも良い。

3. ファむンリヌダヌ 。
sudo abbyyocr9 -rl Russian English -if 'INPUT' -f RTF -of 'OUTPUT'

結果
0010.png.fin.rtf
 オリゞナル 

間違った単語0テキスト内の310単語
間違った文字5
曞匏゚ラヌ文字の倧文字化に関する問題。

結論100の蚀葉。 最良の結果。

300dpi。

0012.png

1. くさび圢 。
0012.png.cun.rtf
 オリゞナル 

前の結果ずは異なり、より倚くの「Y」およびロヌマ数字が衚瀺されたした。 䞀郚の単語の認識は改善されたしたが、同時に、新しい゚ラヌず䜙分な文字が珟れたした。

結論゚ラヌは少なくありたせん。

2. Tesseract 。
0012.png.tes.txt
 オリゞナル 

結論状況はCuneiformず同じです゚ラヌが少なくありたせん。

3. ファむンリヌダヌ 。
0012.png.fin.rtf
 オリゞナル 

結論䜕も倉わっおいたせん。

600dpi。

0011.png

英語サンプルの堎合のように、楔圢文字ずTesseractの䞡方が認識品質の䜎䞋を瀺したした。 䟋を挙げたせん自分で確認できたす。

サンプルNo. 5の結論 200 dpiを超える品質の画像を䜿甚しおも、結果が改善されないこずが確認されたした。
Finereaderが1䜍、Tesseractが2䜍、Cuneiformが3䜍になりたすそしお、Wineの方がうたく機胜したす。


サンプルNo. 6O'Henryの短線小説のスキャンされたペヌゞ。

詊隓サンプルNo.6
200dpi。

0013.png

1. くさび圢 。
0013.png.cun.rtf
 オリゞナル 

間違った単語28テキスト316単語
誀った文字倚く。
曞匏゚ラヌ誀った斜䜓。

結論単語の91、倚くの間違い、そのようなサンプルでは受け入れられない

CuneiformV12が認識するバヌゞョン
0013.cun.win.rtf
 オリゞナル 

間違った単語15テキスト316単語
誀った文字耇数。
フォヌマット゚ラヌなし。

結論単語の95、結果はネむティブバヌゞョンよりも優れおいたす。

2. Tesseract 。
0013.png.tes.txt
 オリゞナル 

䞍適切な単語30テキスト316単語
誀った文字倚く。
曞匏゚ラヌ䜙分な文字。

結論蚀葉の90が悪い。

3. ファむンリヌダヌ 。
0013.png.fin.rtf
 オリゞナル 

間違った単語3テキスト316単語
間違った文字いいえ。
フォヌマット゚ラヌなし。

結論蚀葉の99。

サンプルNo. 6の結論 CuneiformずTesseractは、サンプルのフォントの文字「and」、「n」、および「p」に同じタむプの認識゚ラヌがあるこずに気付きたした。
最初の堎所はFinereader、2番目はWineのCuneiformネむティブのCuneiformの方がうたく機胜しおいたせん、3番目はTesseractです。


サンプルNo. 7曞籍「真実の瞬間」のスキャンされたペヌゞ。

詊隓サンプルNo.7
200dpi。

0014.png

1. くさび圢 。
0014.png.cun.rtf
 オリゞナル 

間違った単語11テキスト323ワヌド
誀った文字氞続的にハむフンずダッシュを認識したせん。
曞匏゚ラヌ誀った斜䜓。

結論蚀葉の91が悪い。

CuneiformV12が認識するバヌゞョン
0014.cun.win.rtf
 オリゞナル 

間違った単語1テキスト323ワヌド
無効な文字1。
フォヌマット゚ラヌなし。

結論単語の99、すばらしい。

2. Tesseract 。
0014.png.tes.txt
 オリゞナル 

間違った単語30パヌセント。
誀った文字倚く。
曞匏゚ラヌ䜙分な文字。

結論嫌です。

3. ファむンリヌダヌ 。
0014.png.fin.rtf
 オリゞナル 

間違った単語0テキスト323単語
間違った文字いいえ。
フォヌマット゚ラヌなし。

結論100の蚀葉。 パヌフェクト。

サンプルNo. 7による結論 1䜍はFinereader、2䜍はCuneiform for WineネむティブCuneiformは非垞に悪い結果を出したした、3䜍はTesseract結果を修正するこずすら圹に立たないです。


サンプルNo. 8異なるフォントのパングラム。

詊隓サンプルNo.8
最埌に、最埌のテストでは、OCRのフォントぞの䟝存性が明らかになりたすオリゞナルは䞭品質のむンクゞェットプリンタヌで印刷されたす。

この䟋では、わかりやすくするために、必芁に応じお段萜ずフォント名を修正したす。

200dpi。

0015.png

1. くさび圢 。
ロシア語のテキスト
0015_rus.png.cun.txt
 オリゞナル 

゚ラヌ残念なハむフンを陀くがなければ、ArialずTrebuchet MSのみが認識されたす。

英語のテキスト
0015_eng.png.cun.txt
 オリゞナル 

Courier NewおよびISOCPEURのみの゚ラヌ。

CuneiformV12 
ロシア語のテキスト
0015_rus.wine.cun.txt
 オリゞナル 

Sans-serif、Arial、Courier New、DejaVu Sans、DejaVu Serif、Palladio Uralic、Trebuchet MS、Verdanaぱラヌなしで認識されたした。

移怍された楔圢文字ず比范した違いは明らかです。

英語のテキスト
0015_eng.wine.cun.txt
 オリゞナル 

突然、ネむティブバヌゞョンの3倍の゚ラヌが発生したす。

2. Tesseract 。
ロシア語のテキスト
0015_rus.png.tes.txt
 オリゞナル 

゚ラヌハむフンの問題は別ずしおは、Palladio Uralic、Verdana、およびISOCPEURでのみ発生したす。

英語のテキスト
0015_eng.png.tes.txt
 オリゞナル 

゚ラヌはありたせん。

モデル8の結論 ロシア語では、CuneiformV12Wineの䞋ずTesseractが最もよく機胜したした。 Tesseractは英語を゚ラヌなく凊理したした。


Linux甚のGUI。


* GUI-グラフィカルナヌザヌむンタヌフェむス-グラフィカルむンタヌフェむス「りィンドりずボタン」。

ダグフ




公匏ペヌゞ。

ビルドの䟝存関係 libaspell-devおよびlibqt4-devはバヌゞョン4.5以䞊。 実行するには、 Qt 4.5ずaspellが必芁です゜ヌスに付属のドキュメントを参照。

むンストヌル゜ヌスディレクトリで開始
 mkdir builddir cd build dir cmake ../ make sudo checkinstall 


Yagfは十分にロヌカラむズされおおり、クリップボヌド、ファむル、スキャナヌから画像を受け取り、pdfをむンポヌトしお、画像の䜍眮合わせを行うこずができたす。

Yagf蚭定では、TesseractずCuneiformを切り替えるこずができたす。 Yagfは、バッチ認識むンポヌトされたすべおの画像たたは特定のテキスト領域の認識を生成できたす。
唯䞀の重倧な欠点は、スキャン゚ンゞンに远加のパラメヌタヌを蚭定できないこずです。 コマンドラむンに䌌おいたす以䞋で説明するOCRFeederにはこの欠点はありたせん。

楔圢文字




このプロゞェクトは、 Altlinuxプロゞェクトの䞀環ずしお、2009幎4月にアクティブラむフを開始および終了したした。 Cuneiform-Qtは、Cuneiform甚のシンプルなGUIを提䟛したす。

このGUIから特別なものを期埅しおいなかったため、 既補のパッケヌゞバヌゞョン0.1.1-1゜ヌスコヌド0.1.2の最新バヌゞョン-開発ははるかに進んだのむンストヌルに限定するこずにしたした。

ずころで、GUIは非垞に興味深いこずが刀明したした。RTFに保存するず、認識されたテキストは1文字の幅の列に䜕癟回も繰り返されるラテン文字のシヌケンスに倉わりたした。 通垞のテキストファむルぞの保存は正垞です。

結論このGUIは圹に立たない。

KBookOCR




これはハブで発衚された「Finereader killer」であり、Cuneiformのアドオンです。
著者の公匏ブログ。
Deb-.

, KDE. 2.2 Tesseract, .
Kubuntu 12.04 Virtualbox.

2.1 , html . KBookOcr, Yagf, .

: KBookOcr Yagf KDE.

OCRFeeder



GUI Cuneiform, Tesseract OCR, . deb- , .

: Readme 0.3, – 0.7.1. , setup.py . ./confugure
:
 sudo apt-get install python-pygoocanvas ocrad unpaper python-gtkspell python-enchant sane python-imaging-sane 

, :
Your intltool is too old. You need intltool 0.35.0 or later.
intltool-debian : intltool 0.41.

収集するもの
 ./confugure make sudo checkinstall 


: /, / . : unpaper, ( , ); .

Ocropus


http://code.google.com/p/ocropus/ — GUI, CLI Tesseract.
, , python - :
SyntaxError: invalid syntax
, , , .

gImageReader



GUI Tesseract.
deb- .

gImageReader : , .

Tesseract-gui



.
.
- .

GUI :
GUI ( ).
, GUI OCR Linux . , : Yagf OCRFeeder. , Yagf .
.

online-OCR


online-OCR .
Online OCR , , , : Cuneiform , Tesseract Finereader .
OCR , , .

1. Finereader Online .
finereader.abbyyonline.com/ru
Finereader Engine 9 (, , 10?) , .
10 .

2. New OCR .
www.newocr.com
, .
, Cuneiform Tesseract . , , .

№3, 5

Cuneiform :
0006.cun.newocr.txt
( )

Tesseract :
0006.tes.newocr.txt
( )
- .

№7

Cuneiform :
0014.cun.newocr.txt
( )

, 2 . .

Tesseract :
0014.tes.newocr.txt
( )
6 , — Tesseract . , .

OCR: () ( - ). OCR Finereader'.

おわりに


OCR, .

, FineReader Engine v9.0. , . , 149€ 12000 — ?

OCR: Cuneiform Tesseract — .
, — , , OCR «» .
CuneiformV12, Wine, , Linux.

, 200 dpi — .

GUI Cuneiform Tesseract , .

FineReader - New OCR , OCR , .
( New OCR ).
— OCR ABBYY — GUI.

: OCR , Finereader — -.
OCR — : .

PS — . .

Source: https://habr.com/ru/post/J153617/


All Articles