2011年10月31日月曜日

tesseractなるものをインストールするも…

スキャン済みの書籍にOCRかけたいと思ったので、tesseract(http://code.google.com/p/tesseract-ocr/)というソフトをインストールしてみることに。
基本的な手順は基本的にReadMe(http://code.google.com/p/tesseract-ocr/wiki/ReadMe)のまま。
tesseract-3.01.tar.gzと適当にランゲージパック的なのを展開する。今回は英語。
tar zxvf tesseract-3.01.tar.gz
tar zxvf tesseract-ocr-3.01.eng.tar.gz
ランゲージパック的なのは、予めtesseract-3.01/tessdataのなかに入れておくといいらしい。
cp tesseract-ocr/tessdata/* tesseract-3.01/tessdata/
あ、そうそう、予めライブラリ類のインストールが必要です。
sudo apt-get install autoconf automake libtool libpng12-dev libjpeg62-dev libtiff4-dev zlib1g-dev
んでもってコンパイル&インストール
./autogen.sh
./configure
make
sudo make install
インストールが終わったら、tesseractで起動だっ…と思ったら、ライブラリがない的なこと言われる。
ぐぐると、http://markmail.org/message/2eqkprradbcrj2cp#query:+page:1+mid:ubdnj2daq47witkv+state:results
ldconfig
でライブラリ類が整理されるっぽくて起動できるようになった。

11.10.31 22:19追記
ランゲージパック的なのは後から入れないとだめっぽいです。嘘つき。
sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata/

0 件のコメント:

コメントを投稿