WinAutomation V8ではOCRの使用が可能となりました。そこで今回はこのOCR機能のうち、Tesseract OCRの検証を行っていきます。
目次
Tesseract OCR:Googleが開発したOCRエンジン
<作成するプロセス>
PDFファイルを読み込み、その内容をテキストファイルに書き出す
<事前準備>
日本語対応に必要なソフトをインストールします。
ダウンロードサイトURL:https://github.com/tesseract-ocr/tessdata/blob/master/jpn.traineddata
<WinAutomation でプロセス登録>
ダウンロード完了後、WinAutomation にて新規プロセスを登録します。
使用するプロセスは次の3つになります。各プロセスの詳細を確認してみましょう。
1.Create Tesseract OCR Engine
<事前準備>でダウンロードしたTesseractの日本語対応ファイルはここで使用します。
2.Extract Text From OCR
※読み込み対象の請求書ファイル(サンプル)
3.Write Text to File
実行結果(生成されたテキストファイル)
まとめ
実行結果からわかる通り、WinAutomationでのOCR実用はまだまだ改善の余地があるため、現状ではOCRについてはWinAutomation以外の使用を推奨します。当ブログでは随時OCRの検証を進め、お知らせしていきます。