NP Log

タグ: config

jupyter notebook の環境設定
Config file and command line options
```
jupyter notebook --generate-config
```
MacOSの場合、
~/.jupyter/jupyter_notebook_config.py
というファイルが生成される。

下記の部分を目的のフォルダに設定する。
```
## ノートブックとカーネルが使うディレクトリ。
#  Default: ''
# c.NotebookApp.notebook_dir = ''
```
2023-06-03
tesseract-ocr の config を使ってみました。
http://code.google.com/p/tesseract-ocr/

プロジェクトのサイトにあるように、元々HP社で開発されたOCRソフトで、現在はGoogleプロジェクトとしてメンテナンスされているようです。

今回はWindows版(win32, portable)をダウンロードして試してみました。
FAQはこちら（英語）

画像の中から認識したい文字列があらかじめ決まっている場合は、Configを利用すると良さそうです。
特にオプションを指定しないで実行すると、画像の中から文字のある領域をブロックとして切り出して、認識処理を行いますので多少複雑なレイアウトだと、かえって上手くいかない場合があります。

例えば、” -PSM 6″ というオプションを使うと、画像全体を1個のブロックと思って、そこからテキストの認識を行ってくれます。
さらに、” nobatch digits” というコンフィグオプションを追加すると、アプリケーションフォルダ内の “tessdata/configs/digits” を参照して処理を行います。

ちなみに、 “tessdata/configs/digits” の中身は次のようになっています。
```
tessedit_char_whitelist 0123456789-.
```
なので、この “0123456789-.” の部分を認識したい文字列に編集すれば、これにマッチするものだけを取り出すことができます。
2011-12-02

タグ: config

jupyter notebook の環境設定

tesseract-ocr の config を使ってみました。