楔形文字でテキストを認識する

写真からのテキストの自動認識を確立するタスクがありました。 ユーザーは、写真をサーバーにアップロードするときに、認識されたテキストも受信します。 すぐに言ってやった。 優れた無料のコンソールソリューションが見つかりました-cuneiformnixバージョンはhttps://launchpad.net/cuneiform-linuxにあります

インストール。 ところで、Ubuntでは、リポジトリからバージョン0.7を入手できます。 現在、バージョン0.9が最新です。
<br> wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2<br> tar xvjf cuneiform-linux-0.9.0.tar.bz2<br> cd cuneiform-linux-0.9.0<br> mkdir builddir<br> cd builddir<br> cmake -DCMAKE_BUILD_TYPE=debug ..<br> make<br> make install<br>
オプションの引数「-DCMAKE_INSTALL_PREFIX = / your / dir」は、正しいディレクトリにcuneiformをインストールします。
次の引数を使用して実行できます。

-l
ドキュメントの言語を指定します。 可能なもの:eng(デフォルト)ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur。

-o
ファイルに保存します。

-f
受信したテキストの形式。 サポート対象:テキスト(デフォルト)、html、rtf、スマートテキスト(TeX段落を含むプレーンテキスト)、hocr(hOCR HTML形式)、ネイティブ(Cuneiform 2000形式)

--dotmatrix
マトリックスプリンターを使用して印刷される画像のスクリプトの最適化。

--fax
FAXを使用して印刷される画像のスクリプトの最適化。

--singlecolumn
ページ分析を無効にし、画像が1列のテキストで構成されていることを意味します。

使用例:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI


それから私は国内のニーズに合ったグラフィカルインターフェースが欲しかった。 選択肢は2つあります。これらはYAGFCuneiform-Qtです。

YAGF

Cuneiform-Qt

YAGFを使用することになりました。 また、 qtで記述されており、 aspellパッケージも必要です。 ダウンロード、インストール:

wget http://symmetrica.net/cuneiform-linux/yagf-0.8.1.tar.gz<br> tar xvfz yagf-0.8.1.tar.gz <br> cd yagf-0.8.1/<br> cmake ./<br> make<br> make install<br>

Source: https://habr.com/ru/post/J95479/


All Articles